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Johannes Fournier 


Komplexität und Vielfalt gestalten 


Der digitale Wandel bringt in der Wissenschaft eine erhöhte Aufmerksamkeit für 
Software und Daten mit sich. Sofern Daten methodisch sauber erhoben, nachvoll- 
ziehbar dokumentiert und verlässlich archiviert sind, ist ihre Bedeutung kaum zu 
überschätzen. Was vielen Forschenden, insbesondere allen empirisch arbeitenden 
Wissenschaftlerinnen und Wissenschaftlern, längst bekannt war, lässt sich inzwi- 
schen auch am Gestaltungswillen der Politik ablesen, die das enorme Potenzial ei- 
ner klugen Datenhaltung erkannt hat. So arbeiten unter anderem die Europäische 
Kommission und die Regierung der Bundesrepublik Deutschland an umfassenden 
Datenstrategien,! in denen zudem die wechselseitigen Bezüge zwischen unter- 
schiedlichen Sektoren in den Blick geraten: Denn so wie Daten aus Behörden und 
Wirtschaftsunternehmen von Forschenden untersucht und dadurch zu Forschungs- 
daten werden, resultieren auch aus der wissenschaftlichen Praxis Daten, die z.B. 
für die Industrie von hohem Interesse sind. Das intensive Interesse an der Gestal- 
tung des Feldes lässt sich zudem an der Fülle von Regularien zum Umgang mit For- 
schungsdaten erkennen, deren Spektrum von institutionellen Vorgaben über die 
Leitlinien von Forschungsförderern bis hin zu gesetzlichen Bestimmungen reicht.? 
Solche Regelwerke zielen vor allem darauf, die Nachnutzbarkeit von For- 
schungsdaten inklusive einer Anschlussverwendung von Seiten Dritter zu ermögli- 
chen. Doch verlässlich einzuschätzen, ob und wie Daten auch jenseits ihres eigentli- 
chen Entstehungskontexts genutzt werden können, ist alles andere als trivial. 
Allein der Blick auf die unterschiedlichen Rechtsregimes — vom Urheberrecht über 
das Datenbankrecht bis hin zum Arbeits- und Dienstrecht -, die bei einer Weiterver- 
wertung von Forschungsdaten eine Rolle spielen können, lässt erkennen, dass ein- 
deutige Antworten auf die etwas naive Frage „Wem gehören die Daten?“ häufig 
nicht möglich sind — oder nicht weiterhelfen.” Gerade deshalb spielen soziale Nor- 
men und auf die konkrete Praxis bezogene Verabredungen einer bestimmten Wis- 


1 European Commission: Communication from the Commission to the European Parliament, the 
Council, The European Economic and Social Committee und The Committee of the Regions. 2020. 
A European strategy for data. Brüssel 19.02.2020. COM(2020) 66 final; Eckpunkte der Datenstrategie 
der Bundesregierung. Nov. 2019, s. https://www.bundesregierung.de/breg-de/themen/digitalisie- 
rung/datenstrategie-1693546. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 

2 Vielzahl und Diversität entsprechender Vorgaben werden anschaulich vermittelt unter: https:// 
www.forschungsdaten.org/index.php/Data_Policies. 

3 Vgl. Lauber-Rönsberg, Anne, Philipp Krahn und Paul Baumann. 2018. Gutachten zu den rechtli- 
chen Rahmenbedingungen des Forschungsdatenmanagements. Kurzfassung. TU Dresden, s. https:// 
tu-dresden.de/gsw/jura/igetem/jfbimd13/ressourcen/dateien/dateien/DataJus/DataJus_Zusammen- 
fassung_Gutachten_12-07-18.pdf?lang=de. 


3 Open Access. © 2021 Johannes Fournier, publiziert von De Gruyter. JMA] Dieses Werk ist lizenziert unter 
der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-201 


2 —— Johannes Fournier 


senschaftscommunity (oder auch einer bestimmten Arbeitsgruppe) eine so heraus- 
ragende Rolle im Umgang mit und in der Nachnutzung von Forschungsdaten. 

Die besondere Herausforderung fiir jedwedes effiziente Datenmanagement liegt 
darin, eine Komplexität zu gestalten, die zunächst einmal aus dem Bedarf und der 
Praxis der Forschenden selbst resultiert und die sich an der Heterogenität von Da- 
tentypen ebenso wie in der Vielfalt von Nutzungsszenarien zeigt. Das Forschungs- 
datenmanagement einer Doktorandin in der Soziologie wird sich erheblich von 
demjenigen einer vielköpfigen Arbeitsgruppe in der Astrophysik unterscheiden. 
Gleichwohl mag sich auch für die Doktorandin die Frage stellen, ob sie ihre Daten 
auf einem lokalen Rechner vorhält oder ob gutes Datenmanagement eine Speiche- 
rung zumindest in einem institutionellen Archiv, wenn nicht gar in einem disziplin- 
spezifischen Repositorium erfordert. Wobei die Antwort auf diese Frage nicht zuletzt 
davon abhängen mag, ob über die Nachvollziehbarkeit von Forschungsergebnissen 
hinaus auch eine künftige Anschlussnutzung der für die Dissertation erhobenen Da- 
ten ermöglicht werden soll. 

Dass Forschende in ihrer wissenschaftlichen Praxis unterschiedlichen und ggf. 
miteinander konkurrierenden Vorgaben unterliegen, führt zu weiteren Komplexitä- 
ten. Wissenschaftlerinnen und Wissenschaftler müssen sich darüber klarwerden, 
wie sie den Vorgaben ihrer Hochschule oder Forschungseinrichtung ebenso ent- 
sprechen können wie den Anforderungen eines Forschungsförderers. Zugleich sol- 
len sie den Normen einer Fachgesellschaft gerecht werden, und in Zukunft dürften 
auch im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) erarbeitete, 
Community-spezifische Verabredungen zu bedenken sein. 

Angesichts der vielen Interdependenzen, die unmittelbare Folge sich überkreu- 
zender Regularien zum Umgang mit Forschungsdaten sind, stellt sich die Frage 
nach deren sinnvoller Gestaltung. Die Grundlinien für die kluge Gestaltung dieser 
Interdependenzen können durchaus benannt werden: Zunächst sollten alle Regula- 
rien eine sinnvolle Hilfestellung für die Umsetzung der guten wissenschaftlichen 
Praxis sein.“ Sodann ist es auf der eher technischen Ebene vordringlich, die Inter- 
operabilität von Forschungsdaten durch konsequente Anwendung der FAIR-Prinzi- 
pien abzusichern. Dies setzt nicht zuletzt umfassende Kenntnisse z.B. über Daten- 
strukturen, Metadaten oder formale Beschreibungssprachen voraus. Auf organisa- 
torischer Ebene ergeben sich Bezüge zwischen einer guten Ausbildung, 
hervorragenden Qualifikationen und der Notwendigkeit, den Einsatz eben dieser 
Qualifikationen auf gut bezahlten Stellen gratifiziert zu sehen. Darüber hinaus ist 
auf sozialer Ebene Austausch, Diskurs und Kommunikation sowohl fachlich als 


4 Vgl. die Ausführungen in Kap. 3.3 in Deutsche Forschungsgemeinschaft. 2019. Leitlinien zur Siche- 
rung guter wissenschaftlicher Praxis. Bonn. S. https://www.dfg.de/foerderung/grundlagen_rahmen- 
bedingungen/gwp/index.html. 
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auch fachübergreifend vonnöten, um ein umfassendes Dienste-Angebot zu konzi- 
pieren, das klar auf die Bedarfe der Forschenden hin ausgerichtet ist. 

Fülle und Vielfalt der Vorgaben zum Umgang mit Daten wecken den verständli- 
chen Wunsch nach einer klaren Orientierung darüber, wie Forschungsdatenma- 
nagement in der Praxis verlässlich gestaltet werden kann. Für die Deutsche For- 
schungsgemeinschaft (DFG) kann diese Orientierung nur in überzeugenden 
Antworten auf die Frage bestehen, in welcher Weise das Forschungsdatenmanage- 
ment dem Fortschritt der erkenntnisgeleiteten Wissenschaft dient. In diesem Sinne 
betonen die vom Senat der DFG im Herbst 2015 verabschiedeten Leitlinien: „Die 
langfristige Sicherung und Bereitstellung der Forschungsdaten leistet einen Beitrag 
zur Nachvollziehbarkeit und Qualität der wissenschaftlichen Arbeit und eröffnet 
wichtige Anschlussmöglichkeiten für die weitere Forschung.“ Und es ist der DFG 
ein Anliegen, dass die Umsetzung der Leitlinien nicht als administrative Zumutung 
begriffen, sondern als echte Unterstützung für die Forschenden konzipiert und ge- 
lebt wird. 

Gutes Forschungsdatenmanagement ist nicht vorstellbar ohne Infrastrukturen, 
die das Archivieren, Durchsuchen und Bereitstellen der Daten in hoher Funktionali- 
tät und auf lange Sicht gewährleisten. Mit dem Förderinstrument „Informationsin- 
frastrukturen für Forschungsdaten“ trägt die DFG bereits seit dem Jahr 2013 dazu 
bei, dass auf die Bedarfe der Community zugeschnittene Dienste und Repositorien 
auf- und ausgebaut werden. In gleicher Weise ist die klare Orientierung auf den Be- 
darf der Forschenden konstitutiv für den Aufbau der NFDI - einem Prozess, der aus 
der Wissenschaft selbst getrieben wird und im Jahr 2019 mit der ersten Ausschrei- 
bungsrunde zur Förderung von Konsortien starten konnte. 

Um den Erwartungen gerecht zu werden, die mit der Forderung nach einem klu- 
gen Forschungsdatenmanagement einhergehen, sind massive Investitionen vonnö- 
ten. Dabei sind unterschiedliche Zuständigkeiten zu berücksichtigen, wenn For- 
schungseinrichtungen und Forschungsförderer, Bund und Länder oder die 
Europäische Kommission das Feld bespielen. Dass der Aufbau der European Open 
Science Cloud oder der NFDI gezielt gefördert wird, ist für die Wissenschaft von gro- 
Ber Bedeutung. Von ebenso großer Bedeutung ist es anzuerkennen, dass — wie die 
Verwaltungsvereinbarung von Bund und Ländern ausführt - eine föderierte Daten- 
infrastruktur auf bestehenden Verantwortlichkeiten aufsetzen muss und die zum 
Aufbau der NFDI bereitgestellten Mittel die schon existierende Finanzierung ergän- 
zen müssen.° Ein massives Engagement in institutionen- und länderübergreifende 
Dateninfrastrukturen darf also nicht zu rückläufigen Investitionen an anderer Stelle 


5 S. https://www.dfg.de/foerderung/antrag_gutachter_gremien/antragstellende/nachnutzung_for- 
schungsdaten/index.html. 

6 S. unter https://www.gwk-bonn.de/fileadmin/Redaktion/Dokumente/Papers/NFDI.pdf, Präam- 
bel. 
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fiihren. Denn das Engagement einer Vielzahl unterschiedlicher Akteure ist grundle- 
gende Voraussetzung dafiir, die hohen Erwartungen an ein gutes Forschungsdaten- 
management künftig einzulösen. 


Vorwort der Herausgeberinnen und des 
Herausgebers 


Das Praxishandbuch erscheint zu einem Zeitpunkt, in dem Forschungsdatenma- 
nagement (FDM) an Bedeutung rasant zunimmt. Die internationalen und nationalen 
Datenökosysteme und -märkte gewinnen an Reife, hierzulande etwa mit den Eu- 
ropean Open Science Cloud (EOSC) und der Nationalen Forschungsdateninfrastruk- 
tur (NFDI) sowie zahlreich geförderten Bundeslandinitiativen zu FDM. 

Maßgeblich verantwortlich hierfür sind jedoch nicht nur die entsprechenden 
Förderstrukturen oder geförderten Konsortien und Projekte, sondern auch „bottom- 
up“ alle engagierten Akteure, die FDM vor Ort vorantreiben, seien es Chief Informa- 
tion Officers (CIOs), Forschungsreferentinnen und -referenten, Kommissionen, Ar- 
beitsgruppen oder das Personal wie z.B. in IT-Abteilungen in Behörden bzw. Unter- 
nehmen oder an Wissenschaftseinrichtungen die Bibliotheken, Rechenzentren bzw. 
Datenzentren - und natürlich die Forschenden selbst. 

Die neu entstandene Datenkultur und der Umgang mit digitalen Daten für die- 
ses breit aufgestellte Engagement erhielt Unterstützung aus verschiedenen Richtun- 
gen. Extrinsisch sind in der Wissenschaft z.B. die aktualisierten „Leitlinien zur 
Sicherung guter wissenschaftlicher Praxis. Kodex“ der Deutschen Forschungsge- 
meinschaft (DFG) mit Regularien zum FDM zu nennen, die nun expliziter als früher 
Hochschulen und außerhochschulische Forschungseinrichtungen auf deren Einhal- 
tung verpflichten, um weiterhin Fördermittel der DFG erhalten zu können. In der 
Folge stieg das Bewusstsein für einen professionellen Umgang mit Forschungsdaten 
bei den Verantwortlichen sprunghaft an. Ein weiterer externer Weckruf könnte die 
COVID-19 Pandemie gewesen sein, die auch die Industrie (z.B. die Pharmaindustrie) 
und Wissenschaftsverlage dazu brachte, Forschungsdaten und -materialien zu- 
gänglich zu machen. Überraschend schnell entstanden parallel dazu COVID-19-Da- 
tenportale und neue Lizenzansätze wie die Open COVID license. 

Intrinsisch entwickelt sich diese neue Datenkultur unterschiedlich, je nach ein- 
fach nutzbaren Tools und dem „Wert“, der aus gut dokumentierten und strukturiert 
vorliegenden Daten gezogen werden kann, sei es in Form von Einsparungseffekten 
durch eine Nachnutzung von Daten, von einer interdisziplinären datenbasierten 
Fragestellung, von Zitationszahlen bei Datenpublikationen oder in Form von realen 
Einkünften auf Datenmarktplätzen. 

Der generelle Wert von Forschungsdaten liegt aber weit höher. Mit qualitativ 
hochwertig dokumentierten sowie z.B. visuell aufbereiteten Daten können Ergeb- 
nisse sowie Fehlinterpretationen in der Wissenschaft sowie in der Wirtschaft, Politik 
etc. transparent und nachvollziehbar kommuniziert werden. Mit Hilfe großer Daten- 
mengen ist es zudem möglich, intellektuell und vor allem auch maschinell (Stich- 
wort Künstliche Intelligenz) komplett neue Wissenszusammenhänge herzustellen 


8 Open Access. © 2021 Putnings, Neuroth, Neumann, publiziert von De Gruyter. [EX] Dieses Werk ist lizen- 
ziert unter der Creative Commons Attribution 4.0 Lizenz. 
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und zu erforschen. Arbeitsabläufe beispielsweise in der Forschung, aber auch in 
Unternehmen können deutlich beschleunigt werden und in bessere, (teil-)automati- 
sierte Lösungen überführt werden. Diese Translation und Anschlussfähigkeit von 
Daten spielen auch bei (inter-)nationalen und (inter-)disziplinären Kooperationen 
eine immer größere Rolle. 

Mit diesem weltweit frei zugänglichen Praxishandbuch versuchen wir, diese 
und viele weitere Aspekte der Datenökonomie, der Datenmärkte, der Datenkultur 
und insbesondere des täglichen Datenmanagements sowie des Datentransfers bzw. 
der Datennachnutzung praxisnah darzustellen und das derzeitige Momentum beim 
FDM zu unterstützen. 

In einer weiteren Form der Wissenssammlung stehen auf Zotero auch die Litera- 
turreferenzen zum Praxishandbuch, als Momentaufnahme der gängigen Fachlitera- 
tur zum Erscheinungszeitpunkt, allen Interessierten zur Verfügung: https://www. 
zotero.org/groups/2497964/praxishandbuch_forschungsdatenmanagement. Gleiches 
gilt selbstverständlich für die Forschungsdaten zu diesem Buch, die auf dem Daten- 
repositorium RADAR „Open Data“ unter der doi:10.22000/325 publiziert wurden. 
Bitte beachten Sie die „Has Part“-Verknüpfungen zu den Kapiteln und Beiträgen. In 
RADAR sind neben den Forschungsdaten zudem die PDFs der Buchbeiträge für min- 
destens 25 Jahre langzeitarchiviert. 

Gerne nehmen wir und die beitragenden Kolleginnen und Kollegen auch Rück- 
meldungen entgegen und kommen mit Ihnen ins Gespräch. Im Kapitel „Über die 
Autorinnen und Autoren“ finden Sie entsprechende Kontaktinformationen. Das 
Buch lebt durch neues Wissen und neue Daten. 


Markus Putnings 
Heike Neuroth 
Janna Neumann 


Markus Putnings 
1 Datenökosystem 


Abstract: Es wird ein eine Definition von Datenökosystem auf Basis der Fachlitera- 
tur und ein Kurziiberblick über dessen Determinanten gegeben; der Beitrag leitet 
damit über zu den gesellschaftlichen, technologischen, internationalen (z. B. EOSC) 
und nationalen bzw. bundeslandspezifischen Treibern und Rahmenbedingungen, 
z.B. der internationalen und nationalen Förderpolitik, den Rechtsrahmen auf EU-, 
Bund- und Landesebene und den informationsethischen Werterahmen. Diese wer- 
den in den Unterkapiteln zum Datenökosystem umfassender behandelt. 


1 Definition 


Die Definitionen von „Datenökosystemen“ und deren Terminologien variieren in 
der Fachliteratur stark.! Im Folgenden wird diese genutzt: 

Ein Datenökosystem ist das prägende, ganzheitliche Umfeld, in dem verschiede- 
ne Akteure zusammenkommen, um Daten zu produzieren, anzubieten, zu finden 
und zu „konsumieren“ (d.h. nachzunutzen, zu verarbeiten, anzureichern, zu archi- 
vieren, zu publizieren, Entscheidungen darauf zu fällen etc.). Die Einflüsse des Da- 
tenökosystems wirken in alle Phasen der Datenlebenszyklen hinein, es schafft die 
entsprechenden Rahmen-, Netzwerk- und regulativen Bedingungen für die (Zusam- 
men-)Arbeit mit Daten bzw. stellt diese konkret dar.” 

Das Datenökosystem in einem Land kann wiederum verschiedene Datenöko- 
subsysteme mit unterschiedlichen Charakteristika umfassen, z.B. hinsichtlich Ak- 
teuren, (z.B. Plattform-)Technologien und Daten aus dem Wissenschaftssektor (For- 
schungsdaten, auf Englisch „Research Data“, sofern frei zugänglich auch „Open 
Data“ oder „Open Research Data“), aus dem öffentlichen Sektor (Verwaltungsdaten 
bzw. urbane Daten, sofern frei zugänglich oftmals unter dem Begriff „Open Go- 
vernment Data“), aus dem Industrie- und Wirtschaftssektor (Industriedaten, Wirt- 
schaftsdaten, sofern frei zugänglich oftmals „Open Business Data“) und vom Bürger 
selbst (z. B. personenbezogene Daten, aber im Kontext der Bürgerwissenschaft auch 


1 Vgl. Oliveira und Löscio 2019, 590. Diese Studie liefert auch ein theoretisches Klassifikationssche- 
ma für Datenökosysteme, s. Oliveira und Löscio 2019, 596. 

2 Vgl. z.B. European Commission 2014, 6; European Commission 2017, 2; Nwatchock A Koul 2019, 
17-18; Oliveira und Löscio 2018, 1-2; Oliveira und Löscio 2019, 589-590, 603-604, 614-615; Ranta- 
nen, Hyrynsalmi und Hyrynsalmi 2019, 1-2; van Loenen et al. 2018, 4; Virkar und Vignoli 2019, 223- 
225; oder abgeleitet vom „Open Data Ecosystem“ auch Charalabidis et al. 2018, 11; Verma, Gupta 
und Biswas 2018, 38-39. 


3 Open Access. © 2021 Markus Putnings, publiziert von De Gruyter. [CIE] Dieses Werk ist lizenziert unter 
der Creative Commons Attribution 4.0 Lizenz. 
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„Bürgerdaten“, „Citizen Data“ bzw. „Open Citizen Data“), s.a. Abb. 1. Die überge- 
ordneten regulativen Rahmenbedingungen können jeweils teilweise oder komplett 
identisch sein (vor allem, wenn es um Datenschutz geht). Sie sichern das Wohlbe- 
finden aller Akteure im Ökosystem und dessen Funktionalität.” 


Datenkultur Ausprägungen 

e Wissenschaftssektor ren, u.a. beim 
. Offentlicher Sektor a Datenmärkte 
+ Industrie- und + Datenmanagement 

Wirtschaftssektor i ip + „Öffnung“ der 
+ Bürgerdaten, Daten (Openness) 

-wissenschaft Daten- Daten- + Datentransfer und 

marktplatz | | marktplatz 
-nachnutzungen 


4 


Datenökosystem 


Abb. 1: (Wechselseitiger) Einfluss der Determinanten des (Sub-)Datenökosystems auf die Datenkul- 
tur, das entsprechende Handeln der Akteure im System und die Funktionsfähigkeit der Datenmärkte 
bzw. spezifischer Datenmarktplätze. 


2 Determinanten des Datenökosystems 


Die Funktionsfähigkeit, d.h. die supportiven Fähigkeiten des Datenökosystems zur 
Produktion und (Nach-)Nutzung von Daten sowie der potenziellen und konkreten 
Wertschöpfung daraus“ hängt maßgeblich von fünf Determinanten ab: 

- Den internationalen, nationalen und bundeslandspezifischen (auch hochschul- 
bzw. wissenschafts-)politischen und fördertechnischen Maßgaben,° siehe nach- 
folgender Beitrag von Wittenburg und Beck, Kap. 1.1, eigener Beitrag zu den för- 
derpolitischen Maßgaben in Kap. 1.3 und abschließender Beitrag von Neuroth 
und Oevel am Ende des Praxishandbuchs, 

- dem technologischen Umfeld,° siehe u.a. Beitrag von Streit und van Wezel, Kap. 
1.2, 


3 Vgl. Rantanen, Hyrynsalmi und Hyrynsalmi 2019, 2. 

4 S. Kap. 2 Datenmarkt und die entsprechenden zugehörigen Unterkapitel in unserem Praxishand- 
buch Forschungsdatenmanagement. 

5 Bspw. Impulse und Verpflichtungen seitens der Europäischen Union (EU), der Bundes- und Lan- 
desregierungen oder der Deutschen Forschungsgemeinschaft (DFG). 

6 Bspw. national entwickelte bzw. betriebene Infrastrukturen, Software, Tools und Plattformen wie 
etwa RADAR (s. https://www.radar-service.eu/de/home), eResearch - Infrastructure and Communi- 
cation (eRIC, s. https://www.eric-project.org/) oder Generic Research Data Infrastructure (GeRDI, s. 
https://www.gerdi-project.eu/). Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
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- den rechtlichen Rahmenbedingungen, siehe Beitrag von Lauber-Rönsberg, Kap. 
1.4, 

- dem vorherrschenden ethischen und Wertesystem und daraus resultierende im- 
plizite und explizite Vorgaben, siehe Beitrag von Rösch, Kap. 1.5, 

- den Akteuren selbst und deren Wertschöpfungsmöglichkeiten bzw. -aktivitäten 
und Impulsmitnahme aus den vorangegangenen Punkten. 


Letzteres führt über zur lokal vorherrschenden Datenkultur,’ da aus den gesetzten 
Impulsen Vernetzung, Bewusstsein, Kompetenzbildung und Engagement sowie ein 
konkretes Handeln, z.B. beim Datenmanagement, bei den Akteuren resultieren 
kann. Das Engagement kann wiederum das Datenökosystem selbst stark pragen,® 
deshalb sind die Akteure mit als Determinanten genannt (s. a. Abb. 1). 


Fazit 


Die Ausgestaltung und weitere Prägung des Datenökosystems mit den entsprechend 
benannten Determinanten liegt in Händen dieser, jeweils verantwortlichen Akteure. 
Sinn und Zweck des Praxishandbuchs Forschungsdatenmanagement ist, diesen 
eine Handreichung zu einem bewussten und kompetenten Handeln zur Verfügung 
zu stellen. 

Durch die als Open Access frei zugängliche E-Book-Version des De-Gruyter- 
Buchs soll die möglichst breite Wahrnehmung für alle maßgeblichen Akteure ge- 
währleistet werden, sei es auf Seiten der Praktikerinnen und Praktiker, sei es aber 
auch auf Seiten der Verantwortlichen für die Politik-, (z.B. NFDI-) Konsortial- und 
Förderimpulse sowie die Rechtsgebung, die (z.B. Software-)Entwicklerinnen und 
Entwickler und damit Mitgestaltenden des technologischen Umfelds sowie die Ex- 
pertinnen und Experten zur Verbesserung der Verinnerlichung eines ethischen Wer- 
tesystem in den verschiedenen Ökosubsystemen. 


7 S. Kap. 3 Datenkultur und die entsprechenden zugehörigen Unterkapitel in diesem Praxishand- 
buch. 

8 Bspw. durch datenwissenschaftliche Projektantragsstellungen und -durchführungen, durch die 
Mitgestaltung von Ethik-Richtlinien von Fachverbänden, durch Stellungnahmen zu öffentlichen 
Konsultationen zur Umsetzung von EU-Richtlinien etc. 
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Peter Wittenburg und Kathrin Beck 

1.1 Gesellschaftliche, technologische und in- 
ternationale, nationalstaatliche bzw. bun- 
deslandspezifische Treiber 


Abstract: Daten werden von Wissenschaft, Industrie, Verwaltungen sowie zuneh- 
mend auch von Privatpersonen als Citizen Scientists und Anwender moderner Tech- 
nologien wie z.B. Smart Watches erzeugt. Um diesen verschiedenen Interessen ge- 
recht zu werden sowie um die Daten besser nutzbar zu machen, fördern die Öffentli- 
che Hand, Forschungsförderorganisationen sowie Industrieverbände Maßnahmen 
zur Wiederverwendung von Daten und zur Entwicklung von Software und Daten-In- 
frastrukturen. Dieses Kapitel gibt einen Überblick über die Entwicklung der daten- 
basierten Forschung von ihren Urspriingen bis in die heutige Zeit. 


Einleitung 


Digitale Daten werden in vielen Wissenschaften seit etlichen Jahren erzeugt. Bei- 
spielsweise konnte man diverse physikalische Prozesse nur durch den Einsatz von 
Sensoren untersuchen, die Daten erzeugten, die dann von den seit 1964 verfiigbaren 
und immer leistungsfahiger werdenden Rechnern! verarbeitet wurden. 

Als eines der frühen Beispiele kann auf Friedrich Hertweck verwiesen werden, 
der am Max-Planck-Institut für Plasmaphysik arbeitete. Er war einer der Wegberei- 
ter für neue Verfahren im Umgang mit digitalen Daten, als er 1970 mit AMOS (Ad- 
vanced multi user operating system) ein Software-System vorstellte, das darauf ab- 
zielte, die an Plasmareaktoren anfallenden Datenmengen sinnvoll analysieren zu 
können.? 

Es ist einerseits die Menge der durch Sensoren, Simulationen und Crowdsour- 
cing erzeugten digitalen Primärdaten in nahezu allen wissenschaftlichen Diszipli- 
nen, die eine neue Qualität formen, und es ist andererseits das große Maß an Ver- 
wobenheit zwischen diesen Rohdaten und vor allem auch den abgeleiteten Daten 
und Annotationen, die wir mit dem Begriff der Komplexität umschreiben, der wir 
uns mit neuen Methoden stellen müssen. Es gibt zudem keinen Grund anzunehmen, 
dass sich diese Entwicklung verlangsamen würde. Mit dem Begriff „Internet of 


1 S. https://de.wikipedia.org/wiki/Computer. Letztes Abrufdatum der Internet-Dokumente ist der 
15.11.2020. 
2 Vgl. Max-Planck-Institut für Plasmaphysik 1998. 


8 Open Access. © 2021 Peter Wittenburg und Kathrin Beck, publiziert von De Gruyter. CIE] Dieses Werk ist 
lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-002 
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Things“ wird ein Trend hin zu einer Welt voller kleiner Sensoren in all unseren Le- 

bensbereichen umschrieben. Die Firma Intel prognostiziert, dass wir in 2020 mehr 

als 200 Mrd. dieser kleinen Erzeuger von kontinuierlichen Strömen hochauflösender 

Daten haben werden.’ 

Große Fragen drängen sich geradezu auf und sind bisher keineswegs beantwor- 
tet. Hier seien nur einige wenige genannt: 

— Wem gehören all diese Daten, wer hat Zugriff auf sie und wer darf sie kommer- 
ziell nutzen? 

- Wie verhindern wir einen Missbrauch, insbesondere von sensiblen und/oder 
personenbezogenen Daten? Wie können wir ihre Löschung sicherstellen? 

- Wie sollen wir mit diesen Daten umgehen, d.h. wie sollen wir sie verwalten? 
Wie können wir sie für den Menschen sinnvoll zusammenführen und analysie- 
ren? 

- Werden wir alle zu leichtgläubigen „Dataisten“ wie Yuval N. Harari eine Art 
neue Religion umschreibt?* 


Es ist keine Frage, dass mit der Verfügbarkeit von immer mehr und detaillierteren 
Daten große Umbrüche in der Wissenschaft, Gesellschaft und Industrie einhergehen 
werden. George Strawn vergleicht die Veränderungen, vor denen wir jetzt in der 
Wissenschaft stehen, mit denen im 17. Jahrhundert, als die britische Royal Society 
in einem geradezu revolutionären Akt von allen Wissenschaftlerinnen und Wissen- 
schaftlern forderte, dass sie die damals neuen Druckmöglichkeiten nutzen und ihre 
Erkenntnisse in Form von Öffentlichen Publikationen der interessierten Gemein- 
schaft verfügbar machen sollten.” Wir kennen das Ergebnis dieses wegweisenden 
Beschlusses für die Wissenschaft - es hat uns ein immer noch weitgehend erhalte- 
nes Gebilde von Theorien, experimentellen Nachweisen und Falsifizierungen ge- 
bracht. Dieses Gebilde mit all seinen Texten und Verweisen kann auch als wesentli- 
cher Teil unseres wissenschaftlichen „Gedächtnisses“ bezeichnet werden, das den 
Stand des menschlichen Wissens zu einem großen Teil umfasst und ohne das wir 
heute nicht auskommen könnten. Heute wollen Wissenschaftlerinnen und Wissen- 
schaftler jedoch nicht nur auf die Publikationen der Forschenden zugreifen, son- 
dern wollen angesichts der großen Datenmengen und der computationellen Kapazi- 
täten auf den Daten selbst operieren und dabei eigene Analyseverfahren einsetzen. 
Es wäre ein Irrglaube, dass Daten an sich bereits Wahrheiten enthalten und mo- 
derne KI-Techniken wie z.B. Maschinelles Lernen automatisch die wahren Interpre- 
tationen liefern würden. In diesem Sinne machen Begriffe wie z.B. „Open Science“ 
und „Open Data“ die Runde und werden bereits weitgehend akzeptiert. Dabei ist 


3 Vgl. Intel n.d. 
4 Vgl. Harari 2015, 497. 
5 Vgl. Strawn 2019. 
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mit open keineswegs gemeint, dass z. B. auch personenbezogene oder Copyright-ge- 
schiitzte Daten prinzipiell offen und fiir alle einsehbar zur Verfiigung stehen sollen. 
Wie vor mehreren Jahrhunderten nicht gefordert wurde, dass nun auch der gesamte 
Austausch zwischen den Wissenschaftlern und Wissenschaftlerinnen publik ge- 
macht werden muss, geht es auch heute nicht um die Offenlegung aller durch Wis- 
senschaftlerinnen und Wissenschaftler erzeugten Daten, sondern um eine dahinge- 
hende Anderung der Kultur, dass es eine prinzipielle Bereitschaft gibt, die fiir die 
Erkenntnisse relevanten Daten und Methoden, eventuell nach einer Karenzzeit, ver- 
fiigbar zu machen. 

Die Frage, die sich uns stellt, ist dann, ob wir auf diese Herausforderungen vor- 
bereitet sind. Vinton G. Cerf, der gemeinsam mit Bob Kahn das Internet begriindet 
hat, spricht davon, dass wir angesichts unserer Verfahren vor einem ,,Digital Dark 
Age“ („dunklen Zeitalter der Digitalisierung“‘) stehen, d.h. er befürchtet, dass wir 
nicht in der Lage sind, ein „wissenschaftliches Gedächtnis“ für das digitale Zeitalter 
aufzubauen und zu verwalten.’ Dabei spielt sicherlich eine große Rolle, dass wir 
noch nicht definiert haben, wer im digitalen Zeitalter die Nachfolger der Bibliothe- 
ken und der Verlage sein sollten und dass wir uns an das Internet als Basis des In- 
formationsaustausches gewöhnt haben, dabei aber übersehen, dass es zum Aufbau 
eines Digitalen Gedächtnisses nicht konzipiert war und aufgrund seiner flüchtigen 
Natur auch vollkommen ungeeignet ist, um Datenmanagement erfolgreich über 
Zeitspannen von z.B. 100 Jahren zu betreiben. 

Hinzu kommt, dass wir im Bereich des digitalen Datenmanagements seit Jahren 
eine Welle der „Kreolisierung“® in allen Aspekten (Datenformate, Organisationen, 
Werkzeuge, Dienste) erleben, in der sich viele intelligente Köpfe weltweit immer 
neue Lösungen für naheliegende Probleme ausdenken und diese auch implementie- 
ren, was letztlich zu einer enormen Fragmentierung des Datenraumes führt. Diese 
Fragmentierung sehen viele immer mehr als ein Hindernis, um Daten und Werkzeu- 
ge effizient und effektiv zusammenführen und analysieren zu können.? Verschiede- 
ne Untersuchungen haben gezeigt, dass etwa 80 Prozent der Zeit von Datenexper- 
tinnen und -experten in Projekten mit Datenaufbereitung („Data Wrangling“)!® ver- 
lorengeht," d.h. bevor die eigentliche Analysearbeit beginnen kann, sind bereits 
etwa 80 Prozent der Projekt-Personalkosten verbraucht. Somit werden viele For- 


6 S. https://eandt.theiet.org/content/articles/2015/02/digital-data-storage-may-leave-future-in- 
dark-about-us-warns-cerf/ und https://cltc.berkeley.edu/2016/02/18/video-dr-vinton-cerf-safety-se- 
curity-and-privacy-in-the-internet/. 

7 Vgl. Ghosh 2015. 

8 Dieser Begriff wird z.B. in der Linguistik verwendet, um den natürlichen Prozess des Auseinan- 
derdriftens von Sprachen zu beschreiben. 

9 Vgl. Wittenburg 2018. 

10 S. https://en.wikipedia.org/wiki/Data_wrangling. 

11 Vgl. CrowdFlower 2017. 
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schende von datenintensiver Wissenschaft ausgeschlossen, viele Projekte werden 
gar nicht erst begonnen und kostbare Ressourcen werden fiir an sich unnötige Ar- 
beiten verbraucht. So fallen z.B. im US-Gesundheitssystem jährlich 400 Mrd. US- 
Dollar an unnötigen Kosten an, wobei einer der Hauptfaktoren die Nicht-FAIRness 
der Daten ist? (FAIR: Findable, Accessible, Interoperable, Reusable’). Ähnlich dra- 
matisch ist die Situation bezüglich der Reproduzierbarkeit des wissenschaftlichen 
Erkenntnisgewinns im digitalen Zeitalter. Berichte z.B. aus dem Bereich der biome- 
dizinischen Wissenschaften zeigen, dass sich nur ein kleiner Prozentsatz von Arbei- 
ten reproduzieren lässt,” was Tür und Tor für alle möglichen Behauptungen öffnet, 
deren Substanz nicht überprüft werden kann. 

Natürlich dürfen wir die Augen nicht vor grundlegenden Problemen verschlie- 
ßen, die am besten als Daten-Paradoxa umschrieben werden können. 


Data, Data Everywhere, Nor Any Drop to Drink.” 


Das erste Paradoxon geht auf einen Beitrag von Christine Borgman zurück, in dem 
sie mittels einer Analogie zu einem Ausspruch von Samuel Taylor Coleridge (,,Wa- 
ter, water everywhere, nor any drop to drink“) verdeutlicht, dass wir bereits über 
viele Daten verfügen, aber offensichtlich nicht in der Lage sind, diesen Reichtum 
sinnvoll zu verwenden. Wir sehen vor allem zwei Gründe für diese scheinbar größer 
werdende Lücke: 

- Zum einen müssen wir das Argument von Dimitris Koureas berücksichtigen, 
dass Daten in einem lokalen Kontext von Experten und Expertinnen erzeugt 
werden, aber global von anderen verwendet werden sollen, die den Detail-Kon- 
text der Datenerzeugung nicht kennen.'° Diese Lücke lässt sich mit reichhalti- 
gen Metadaten nur näherungsweise schließen. In den weitaus meisten Fällen 
werden gegenwärtig nicht einmal minimale Metadaten zur Verfügung gestellt. 

- Der zweite Aspekt hat damit zu tun, dass man, um mit den Daten von anderen 
sinnvoll umgehen zu können, entweder selbst ein Mindestmaß an erforderli- 
chen technischen Kenntnissen mitbringen muss, über das viele Forschende 
nicht verfügen, oder aber Zugriff auf einen teuren Personalstab haben muss, 
was ebenfalls in vielen Forschungsinstitutionen weit ab von der Realität ist. Mit- 
hin verlassen sich viele Forschende eben doch auf die in Publikationen be- 
schriebenen Analyseresultate, für deren Verständnis man zunächst lediglich 
die Sprache als Basiswerkzeug beherrschen muss. 


12 Vgl. World Economic Forum n.d. 

13 Vgl. FORCE11 2016; Kraft 2017; Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 
14 S. https://en.wikipedia.org/wiki/Replication_crisis. 

15 Borgman 2014, 1-2. 

16 Vgl. Koureas 2018. 
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Ein zweites, verwandtes Paradoxon hat mit der Realität von „Dark Data“ zu tun, wie 

Ryan Heidorn es beschrieben hat.” Etwa 80 Prozent der wissenschaftlichen Daten 

sind demzufolge „Dark Data“,'® also nicht sichtbar und verfügbar, von denen die 

weitaus meisten in etwa 20 Jahren verloren gegangen sein dürften. Es werden sehr 
viele Mittel in Dienste investiert, die auf Daten aufbauen sollen, wie z.B. die Verlin- 
kung von Daten mit Publikationen, Erzeugern, Institutionen, Projektförderungen 
und anderem, aber eigentlich fehlen in großem Maßstab die Daten selbst, die ver- 
linkt werden können. Momentan ist noch nicht geklärt, wie und von wem die Mittel 
dafür aufgebracht werden können, solche Daten sichtbar und verfügbar zu machen, 
und wer letztlich die Rolle für die gewaltige Kurationsaufgabe übernehmen soll. 

Vielen Forschenden fehlt daher auch das Vertrauen, sich auf die Verfügbarkeit der 

Daten anderer zu verlassen und Zeit in das Erlernen neuer Methoden zu investieren. 
Peter Wittenburg und George Strawn sprechen von einer Notwendigkeit der 

Konvergenz im Bereich der Daten, um die Phase der Kreolisierung zumindest auf 

einem bestimmten Niveau zu beenden und dadurch Energie zur Lösung der primä- 

ren wissenschaftlichen Probleme freizusetzen.'? Sie sehen momentan zwei wesentli- 
che Ansätze: 

- Die nach langen Diskussionen erfolgreiche Etablierung der nunmehr weltweit 
anerkannten FAIR-Prinzipien” kann als Maßstab für alle gesehen werden, ihre 
Daten so zu gestalten, dass das Umgehen mit diesen effizienter wird. 

- Die Definition des Konzeptes der FAIR Digital Objects, die auf langjährige Dis- 
kussionen in der Research Data Alliance (RDA)” über Disziplingrenzen hinweg 
basieren und auf frühe Publikationen von Robert Kahn zurückgehen,” stellt ei- 
nen Weg dar, um die FAIR-Prinzipien praktisch umzusetzen. 


In dieser Verbindung sehen Wittenburg und Strawn die Chance, eine neue Ebene zu 
definieren, auf die sich alle einigen können und die - ähnlich wie bei der weltwei- 
ten Einigung auf TCP/IP als Internet Protokoll — ungeahnte Kräfte freisetzen könnte, 
um die oben genannten Probleme anzupacken. 


17 Vgl. Heidorn 2008. 

18 S. https://de.wikipedia.org/wiki/Dark_Data. Viele Experten halten die Schätzung von Heidorn 
noch für weit untertrieben. 

19 Vgl. Wittenburg und Strawn 2018. 

20 Vgl. Wilkinson 2016. 

21 S. https://www.rd-alliance.org. 

22 Vgl. Kahn und Wilensky 1995; Kahn und Wilensky 2006. 
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1 Gesellschaftliche Treiber 


Nicht zuletzt die Diskussionen um die „Grand Challenges“ und die 17 Ziele für eine 
nachhaltige Entwicklung der UNO” haben uns vor Augen geführt, wie stark die Ein- 
flüsse unserer Entscheidungen auf die Gestaltung von Natur und Gesellschaft und 
wie komplex zugleich die Zusammenhänge sind. Im Allgemeinen haben wir auch 
verstanden, dass angesichts der Komplexität der Herausforderungen nur multikau- 
sale, nationale Grenzen übergreifende Betrachtungen zu Lösungen führen werden. 
Vor allem der zusätzliche Einsatz von datenbasierten Methoden gepaart mit neuarti- 
gen Analysemethoden und Simulationen von Modellen, wie sie von Jim Gray be- 
schrieben wurden,” werden neue Einsichten vermitteln. Für den Erfolg dieses We- 
ges lassen sich bereits sehr gute Beispiele auch aus dem deutschen Raum nennen. 
So ist im Bereich der Umweltwissenschaften das Deutsche Klimarechenzentrum 
(DKRZ) führend in der Erzeugung der Berichte zur Entwicklung des Klimas an die 
UNO beteiligt, wobei immer umfangreichere, auf Standards basierende Basisdaten?® 
und iterativ ergänzte Modelle die Präzision der Vorhersagen kontinuierlich verbes- 
sern. Im Bereich der Materialwissenschaften ist es dem EU-Projekt NOMAD” gelun- 
gen, Millionen von Simulationsergebnissen von Laboren aus vielen Ländern zusam- 
menzubringen und zu normalisieren, sodass die Wissenschaft nunmehr über einen 
kohärenten Datenraum verfügt, der geeignet ist, Deskriptoren zu berechnen, mit de- 
nen sich verschiedene Kategorien von Verbundmaterialien mit spezifischen Eigen- 
schaften klassifizieren lassen. 

Im Bereich der Geisteswissenschaften hat z.B. das von der Volkswagen-Stiftung 
finanzierte DOBES-Projekt?® Sprachdaten von bedrohten Sprachen aus aller Welt zu- 
sammengetragen, an dem Teams von Forschenden aus vielen Ländern mitgewirkt 
haben. Diese Daten und diejenigen vergleichbarer Projekte ermöglichen es, z.B. 
Theorien über die Evolution von Sprachen und Kulturen zu präzisieren oder auch 
vergleichende Untersuchungen z.B. über die Funktionen der Intonation in verschie- 
denen Sprachen vorzunehmen. 

Wie bereits erwähnt, betreffen die Fragmentierung der Daten und daraus fol- 
gend deren ineffiziente Weiterverarbeitung auch andere Gesellschaftsbereiche. Be- 
züglich der Durchdringung durch die Digitalisierung im Öffentlichen Dienst hat 
Deutschland offensichtlich einen Nachholbedarf, dessen sich die Politik zuneh- 
mend bewusst wird.” Im kommerziellen Sektor werden große Anstrengungen unter- 


23 S. https://en.wikipedia.org/wiki/Grand_Challenges. 

24 Vgl. United Nations n.d. 

25 Vgl. Hey, Tansley und Tolle 2009, xvii-xxxi. 

26 Vgl. World Climate Research Programme 2017. 

27 S. https://www.nomad-coe.eu. 

28 S. https://tla.mpi.nl/project/dobes und http://dobes.mpi.nl. 
29 Vgl. Skala 2018. 
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nommen, dass sich die Vormachtstellung der technologischen Großkonzerne im Be- 

reich der Informationsverwertung nicht auch noch auf den Bereich der Daten aus- 

dehnt. Konsortien wie die von der Fraunhofer Gesellschaft angestoßene Internatio- 
nal Data Space” oder die von der EU finanzierte Big Data Value Association” ma- 
chen deutlich, dass sich die europäische und auch die deutsche Industrie der 

Herausforderungen annehmen und nach gemeinsamen Lösungen suchen. 

Die gesellschaftlichen Treiber für ein verbessertes Datenmanagement lassen 
sich wie folgt zusammenfassen: 

- Die Erkenntnis, dass datenintensive Forschung eine Notwendigkeit ist, um ver- 
borgene Muster in komplexen Zusammenhängen zu identifizieren und somit zu 
neuen Einsichten zu kommen, die uns bei der Bewältigung der „Großen Heraus- 
forderungen“ helfen können, und um international konkurrenzfähige For- 
schungsresultate zu liefern. 

- Die Erkenntnis, dass Daten ein kostbares Gut sind, um deren Auswertung ein in- 
ternationaler Wettbewerb entbrannt ist, in dem es letztlich in allen Bereichen dar- 
um geht, Zugang zu bekommen bzw. die Hoheit über die Daten nicht zu verlieren. 

- Die Erkenntnis, dass drei große Problemstellungen zu bewältigen sind: 1. Wie 
kann aus Daten Wissen extrahiert werden? 2. Wie kann das Wissen, das in im- 
mer mehr Studien gewonnen wird, sinnvoll repräsentiert und auch kombiniert 
werden, um daraus verwertbare Erkenntnisse abzuleiten? 3. Welche Art von Da- 
teninfrastruktur muss zur Verfügung gestellt werden, um die ersten beiden Pro- 
blemstellungen nachhaltig und im Sinne hoher Effizienz und Effektivität zu un- 
terstützen? 

- Die Erkenntnis, dass Regierungen bezüglich der ersten zwei Punkte dieser Liste 
nur stimulierend einwirken können, aber bezüglich des dritten Punktes, wie 
auch bei früheren Infrastrukturen, die Verantwortung übernehmen und ent- 
sprechende Mittel bereitstellen müssen, wenn zumindest der Wille vorhanden 
ist, an dem Reichtum, der den Daten innewohnt, teilhaben zu wollen. 


Der Bereich der Wissensextraktion ist gekennzeichnet durch statistische Methoden, 
die immer weniger Vorannahmen benötigen und auf der Basis von Beispielen ler- 
nen, wie z.B. Machine Learning. Die Frage, wie man das aus den Unmengen von 
Experimenten und Simulationen extrahierte Einzel-Wissen repräsentieren kann, um 
es in kombinierter Form auswerten zu können, wird weiterhin heftig diskutiert. 
Nano-Publikationen, die Wissen in Form von erweiterten Resource-Description- 
Framework-Aussagen” (RDF-Aussagen) darstellen, scheinen an Popularität zu ge- 


30 S. https://www.fraunhofer.de/de/forschung/fraunhofer-initiativen/international-data-spaces. 
html und https://www.internationaldataspaces.org. 

31 S. http://www.bdva.eu. 

32 S. https://de.wikipedia.org/wiki/Resource_Description_Framework und https://www.w3.org/ 
RDF/. 
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winnen, stellen sie doch eine Form dar, Wissen hochkonzentriert und formal derart 
zu repräsentieren, dass weitergehende Operationen ermöglicht werden.” 

Bereits im Jahre 2002 wurde der ESFRI-Prozess (European Strategy Forum on 
Research Infrastructures)” gestartet, um die Gestaltung von Forschungsinfrastruk- 
turen in Europa systematischer anzugehen und Absprachen über Standards zu er- 
zielen. Seit 2006 wurden in mehreren Runden ESFRI-Roadmaps für den Aufbau der- 
artiger Forschungsinfrastrukturen in verschiedenen Disziplinen aufgestellt mit der 
Konsequenz, dass 
— in mehr als 50 Bereichen derartige Infrastrukturen durch europäische und na- 

tionale Mittel gefördert wurden, die auf breiter Basis ein höheres Bewusstsein 

für Daten und neue Technologien erzeugten und auch zu einem großen Teil für 
verbesserte Methoden sorsten; 

- einige dieser Infrastrukturen in ERICs (European Research Infrastructure Consor- 
tium)” mit der Zielsetzung einer verstetigten Förderung umgewandelt wurden; 

- mittels des ESFRI-Prozesses traditionelle Vorstellungen von Wissenschaftsinfra- 
strukturen überwunden und nunmehr auch die virtuelle Zusammenführung ver- 
teilter Datenbanken als essentielle Forschungsinfrastrukturen angesehen werden. 


Diese Konzepte wurden in vielen Staaten Europas aufgegriffen und parallele Pro- 
gramme gestartet. Hunderte derartiger virtueller Infrastrukturprojekte wurden in 
Europa finanziert, was bereits in vielen Bereichen zu einem Aufbruch führte und 
die Kultur des Datenaustausches in den Disziplinen beeinflusste. Diese Förderun- 
gen führten einerseits innerhalb enger Disziplingrenzen zu einer Reduzierung der 
Fragmentierung, aber andererseits auch zu einer Verfestigung von Silo-Lösungen. 

Somit können wir die wesentlichen Treiber hin zu besseren FDM-Lösungen be- 
nennen: 

—  Wissenschaftlerinnen und Wissenschaftler sind daran interessiert, an den best- 
möglichen Forschungseinrichtungen, die nunmehr auch die datenintensive For- 
schung unterstützen müssen, zu arbeiten, um sowohl zum Erkenntnisgewinn 
beizutragen als auch um ihre Karriere im Rahmen des globalen Wettbewerbs 
absichern zu können. 

- Forschungsorganisationen benötigen eine Basis, die es ihnen erlaubt, einerseits 
relevante Daten unter Wahrung der zugrundeliegenden Rechte sicher und dau- 
erhaft zu speichern und es andererseits ihren Forschenden zu ermöglichen, re- 
levante datenintensive Forschung (DIF) zu betreiben. Dabei müssen in Zukunft 
die Effizienz und die Effektivität der DIF gesteigert werden, um die momentan 


33 Vgl. Mons und Velterop 2009. 

34 S. https://ec.europa.eu/info/research-and-innovation/strategy/european-research-infrastruc- 
tures/esfri_en und https://www.esfri.eu. 

35 S. https://ec.europa.eu/info/research-and-innovation/strategy/european-research-infrastruc- 
tures/eric_en. 
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zu hohen Kosten merkbar zu senken und um die flexible Kombination von Da- 
ten verschiedener Herkunft zu vereinfachen. 

— Besonders im medizinischen Bereich müssen Wege gefunden werden, um die 
Verwendung von Daten über das ursprüngliche Forschungsprojekt hinaus zur 
Erzielung neuer Einsichten über häufigere Krankheiten” verwenden zu können, 
ohne die Persönlichkeitsrechte der Patientinnen und Patienten zu verletzen. 

- Die Industrie möchte die Hoheit über die von ihr erzeugten und gesammelten 
Daten behalten und die möglichen Wertschöpfungsketten in vertragsbasierter 
Kollaboration mit anderen selbst mitgestalten. Hierbei spielt in Deutschland vor 
allem die Produktionsindustrie und der Mittelstand eine große Rolle. Sie sind in 
grobem Maße die Datenerzeuger und befürchten, dass andere das Wissen aus 
diesen Daten extrahieren könnten, ohne dass sie als Erzeuger davon profitieren. 

- Die Bürgerinnen und Bürger wollen ebenfalls teilnehmen, wobei sie als Akteu- 
rinnen und Akteure mit verschiedenen Rollen auftreten. Sie erzeugen vielfältige 
Daten und haben ein genuines Interesse, diese auch in Kombination mit ande- 
ren Daten zu analysieren, z.B. über Smart Watches oder als Citizen Scientists. 
Ein demokratisches Verständnis der Gesellschaft legt nahe, dass auch der Bür- 
gerin bzw. dem Bürger, wann immer möglich, Zugang zu Daten und Analyse- 
tools gegeben wird, insbesondere zu ihren oder seinen eigenen personenbezo- 
genen Daten. Sie sind jedoch auch daran interessiert, dass ein gewisser Wohl- 
stand und Arbeitsplätze dadurch geschaffen werden, dass die entsprechenden 
Akteure an den Wertschöpfungsketten bezüglich ihrer Daten teilhaben. 

- Die Regierungen müssen sich darum kümmern, dass die gesellschaftlichen Ak- 
teure die besten Voraussetzungen haben, um in den beschriebenen Rollen aktiv 
werden zu können. Dies betrifft dann vor allem den Ausbau einer entsprechen- 
den Dateninfrastruktur, die ein nachhaltiges und effizientes Engagement er- 
mösglicht. 


Alle genannten Akteure scheinen sich der enormen Herausforderungen bewusst zu 
sein und auch in der Bevölkerung ist der Begriff der „Digitalisierung“ jetzt derart 
mental verankert, dass hohe staatliche Ausgaben breit unterstützt werden. Die In- 
dustrie versucht, im Bereich der Infrastruktur mit Initiativen wie dem „International 
Data Space“ Felder zu besetzen und die Daten nicht den technologischen Groß- 
konzernen zu überlassen. Die Regierungen in Europa reagieren mit einer zweiten 
Welle von Initiativen, wobei die Europäische Kommission (European Commission, 


36 Ein Beispiel sind Hirnkrankheiten, deren Verständnis z.B. über Korrelationen zwischen Phäno- 
menen und Mustern in umfangreichen Daten verschiedenster Quellen (Hirnscans, Gensequenzen, 
psychologische Experimente etc.) vertieft werden sollen. Dies sind Methoden, die die Verfügbarkeit 
umfangreicher Datenbestände aus verschiedenen Laboren und Kliniken erfordern. 

37 S. https://www.internationaldataspaces.org/. 
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EC) mit der European Open Science Cloud’? (EOSC) und Deutschland mit der Natio- 
nalen Forschungsdateninfrastruktur” (NFDI) am weitesten mit ihren Planungen 
sind. Weitere Staaten und auch Regionen wie z.B. Frankreich, die Niederlande und 
die nordischen Staaten werden folgen. Dabei sind die Ansätze für die Programme 
durchaus unterschiedlich. 

Laut Thomas P. Hughes besteht die erfolgreiche Umsetzung von großen Infra- 
strukturprojekten aus einem Zusammenspiel von drei wesentlichen Faktoren:“° 
- technologische Innovation, 
-  ökonomische/wissenschaftliche Anforderungen und 
- geeignete organisatorische und politische Formen. 


Das EOSC-Programm der EC hat der Schaffung einer für die Mitgliedstaaten über- 
zeugenden organisatorischen Struktur den Vorrang gegeben und ist nunmehr in der 
zweiten Projektphase bemüht, den technologischen Kern zu definieren. Der An- 
spruch ist derartig umfassend, dass viele Expertinnen und Experten ein Scheitern 
der Pläne befürchten. Die EC setzt jedoch auf verschiedene Arbeitsgruppen, die in 
Zusammenarbeit mit der neuen Allianz aus RDA, Committee on Data of the Interna- 
tional Science Council“ (CODATA) und GO FAIR“ konkrete Vorschläge ausarbeiten 
sollen, die die EOSC als eine FAIR-basierte, distribuierte Infrastruktur-Landschaft 
entstehen lassen können. Das deutsche NFDI-Programm verfolgt einen anderen An- 
satz, indem es zunächst eindeutig den wissenschaftlichen Motivationen und Pla- 
nungen eine höhere Priorität gibt und die Planung einer konvergenten technologi- 
schen Komponente in den Hintergrund stellt. Damit wird im Prinzip der frühere An- 
satz des ESFRI-Programms weiterverfolgt, der jedoch in einer Verfestigung der Silo- 
Mentalität enden könnte. Allein durch EOSC und NFDI werden jährlich ca. 90 Mio. 
Euro für die Entwicklung eines Daten-Infrastruktur-Ökosystems ausgegeben. 

In den USA, wo die Entwicklung bisher durch die großen Informationskonzer- 
ne, wie Google, Facebook etc., vorangetrieben wird, verhalten sich die staatlichen 
Akteure, die ein nationales Programm für eine US-Forschungsdateninfrastruktur 
einfordern, noch zurückhaltend.“ Bisherige Programme waren konzipiert, um Pilot- 
projekte mit dem Ziel zu unterstützen, ein größeres Verständnis darüber zu bekom- 
men, was Infrastrukturen leisten können und wie man sie organisieren kann. Insbe- 
sondere kann hier das Programm zu „Research Data Commons“ von den National 
Institutes of Health“* genannt werden. Bisher gab es in den USA keine einheitliche 


38 S. https://ec.europa.eu/research/openscience/index.cfm?pg=open-science-cloud; https://eosc- 
portal.eu; Beitrag von Streit und van Wezel, Kap. 1.2 in diesem Praxishandbuch. 

39 S. https://www.dfg.de/foerderung/programme/nfdi/index.html. 

40 Vgl. Hughes 1983, 461-465. 

41 S. http://www.codata.org. 

42 S. https://www.go-fair.org; Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 

43 Vgl. Wittenburg und Strawn 2019. 
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Uberzeugung, wie man eine umfassende Dateninfrastruktur aufbauen soll. Mit der 
breiten Akzeptanz der FAIR-Prinzipien und dem Ausformulieren der FAIR Digital 
Objects“ scheint sich eine Änderung der Einschätzungen abzuzeichnen. 

In China verfolgt man die Diskussionen über die FAIR-Prinzipien und den FAIR 
Digital Objects engagiert und organisiert entsprechende Konferenzen,“ um sich ge- 
gebenenfalls mit großem Mittelaufwand an den Entwicklungen führend beteiligen 
zu können. 


2 Technologische Treiber 


Die technologische Innovation wird immer wieder neue Anziehungspunkte für die 
Wissenschaft und darüber hinaus definieren, wobei die Wissenschaft oftmals eine 
Vorreiterrolle einnimmt, ist sie doch prinzipiell zu größeren Risiken bereit. Dabei 
gilt jedoch, dass Standards gut für die Wissenschaft insgesamt sind, zunächst nicht 
jedoch für die individuellen Wissenschaftlerinnen und Wissenschaftler, die Produk- 
tivitätseinbußen befürchten. Dennoch wollen einige die neuesten technologischen 
Entwicklungen für ihre Zwecke so früh wie möglich einsetzen, da sie neue Möglich- 
keiten antizipieren und bereit sind, mit Technologen zusammenzuarbeiten, und 
sich trauen, in neuen Bereichen zu publizieren. Die wesentlichen gegenwärtigen 
technologischen Trends, die relevant für den Bereich der datenintensiven Wissen- 
schaft“ sind, lassen sich in einigen Kernaussagen zusammenfassen: 


Tab. 1: Die von G. Strawn übernommene Tabelle über die Entwicklung der IT-Kapazitäten schaut 
vom Stand 2000 aus 30 Jahre zurück und wagt Prognosen für 30 Jahre in die Zukunft. Es gibt keine 
Gründe anzunehmen, dass die dynamische Entwicklung mit der Einführung von Post-Chip und an- 
deren innovativen Technologien abnehmen wird. 


1970 2000 2030 
Technology pre-chip Chip post-chip 
US $ 1.000.000 1.000 1 
CPU 1 mips 1gips 1tips 
Disk $1/kB $1/gB $1/pB 
Net 10 kbps 10gbps 10pbps 


44 S. https://commonfund.nih.gov/commons. 

45 Vgl. Wittenburg et al 2019; Schultes und Wittenburg 2019 und RDA GEDE group 2019. 

46 Vgl. FAIR DO Session 2019. 

47 Wie auch bereits Jim Gray bei seiner Einführung des Begriffes der Data-Intensive Science beton- 
te, wird es in der Wissenschaft auch weiterhin traditionelle Methoden geben, deren Bedeutung nicht 
in Frage gestellt wird. 


22 —— Peter Wittenburg und Kathrin Beck 


- Die Kapazitäten in der IT (CPU, Speicher, Netzwerk) nehmen weiter zu und 
neue technologische Ansätze wie z.B. Quantencomputing lassen für die Zu- 
kunft enorme Sprünge erwarten wie in Tab. 1 dargestellt wird. Wir kennen die 
optimalen Einsatzmöglichkeiten dieser neuen Ansätze noch nicht genau, aber 
es besteht kein Zweifel, dass die Wissenschaft darauf wartet, sie einsetzen zu 
können. 

- Neuartige mathematische Verfahren werden entwickelt, um die riesigen, virtu- 
ell integrierten Datenmengen analysieren zu können. Hier sei nur auf die Deep- 
Learning-Ansätze verwiesen, die noch weniger Vorannahmen erfordern als frü- 
here Ansätze und daher noch abhängiger von großen Datenmengen und geeig- 
neten Lernstrategien sind. Wir beschreiben diese Ebene mit dem Begriff der „Ex- 
traktion von Wissen aus Daten“. 

— Angesichts der großen Datenmengen ist der Einsatz automatischer Verfahren 
mittels Workflow-Werkzeuge eine zunehmende Notwendiskeit. Dabei wird zu er- 
warten sein, dass Wissenschaftlerinnen und Wissenschaftler Daten-Profile defi- 
nieren und es Crawlern überlassen, geeignete Daten zu finden und das Ausfüh- 
ren der Workflows zu starten. 

- Die große Anzahl der aktiven Wissenschaftlerinnen und Wissenschaftler und 
der Einsatz automatischer Verfahren werden es erforderlich machen, nach neu- 
en Methoden der Präsentation von Wissen zusätzlich zu den etablierten wissen- 
schaftlichen Publikationen zu suchen. Vorschläge wie Nano-Publikationen,”® 
im Wesentlichen augmentierte RDF-Aussagen über wesentliche Resultate, wer- 
den gegenwärtig diskutiert. 

- Eine weitere große Herausforderung wird sein, wie wir die zunehmende Zahl 
wissenschaftlicher Resultate (Detailwissen) zu Erkenntnissen zusammenbringen 
können, die für die Gesellschaft nutzbringend sind. Wenn wir über geeignete 
formale Verfahren verfügen, um Wissen darzustellen, werden uns intelligente 
AI-Methoden (Artificial Intelligence) helfen, zu Erkenntnissen zu kommen. 

- Die bisher genannten Ebenen werden nur dann erfolgreich und effizient umge- 
setzt werden können, wenn wir über geeignete Dateninfrastrukturen verfügen, 
die es unter anderem erlauben, inkrementell ein digitales Gedächtnis aufzubau- 
en, sodass eine Abkehr von flüchtigen Methoden z. B. des Internets möglich ist. 


Während der in den ersten fünf Punkten beschriebene Fortschritt vom Erkenntnis- 
drang der Wissenschaft und dem Marktstreben der Industrie vorangetrieben wird 
und auch bereits ziemlich große Schritte gemacht wurden, folgt der letztgenannte 
Bereich der Infrastrukturen gänzlich anderen Gesetzen. Das Entwickeln von Infra- 
strukturen ist wissenschaftlich wenig attraktiv und für die Industrie ambivalent. 


48 Vgl. Mons und Velterop 2009. 
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Proprietäre Infrastrukturen können einen Marktvorteil bieten, sind aber fiir die All- 
gemeinheit nicht akzeptabel. Offene Infrastrukturen eröffnen für alle, also auch 
neuen innovativen Firmen, die gleichen Einstiegschancen. Offene Infrastrukturen 
können mithin auch nur von der Allgemeinheit finanziert werden. 

IT-geprägte Infrastrukturen müssen global geplant und umgesetzt werden, da 
die intensive internationale Vernetzung einheitliche Strukturen verlangt und auf 
Dauer keine Infrastruktur-Inseln überlebensfähig sind. Auch proprietäre Strukturen, 
wie sie von großen IT-Konzernen etabliert werden, werden sich gegen allgemeine 
Trends nicht durchsetzen können, sowie sich eine weitgehende, globale Überein- 
kunft auf bestimmte Standards abzeichnet. Diese Übereinstimmung zu erzielen, 
stellt allerdings eine große technologische und vor allem soziologische Herausfor- 
derung dar - sie ist ungleich schwerer zu erreichen, als es im Falle des Internets der 
Fall war, da der Bereich des FDM sehr viel vielschichtiger ist. Die Durchsetzung gro- 
Ber Infrastrukturen in der Vergangenheit basierte jeweils auf sehr einfachen mini- 
malen Spezifikationen (z.B. 50 Hz/220 V, TCP/IP, HTTP), um ein Momentum hin zur 
Reduktion der Fragmentierung zu erzeugen, ohne Innovationen auf anderen Ebe- 
nen zu blockieren. 

Eine ganze Reihe von Initiativen hat sich gebildet, um zu Übereinkünften zu 
kommen, die die Fragmentierung verringern können. Die RDA, die etwa 9000 Ex- 
pertinnen und Experten aus derzeit 137 Ländern umfasst, arbeitet aktuell in 86 
Gruppen an Spezifikationen von Komponenten sowie an Prozeduren. Bemängelt 
wird oftmals, dass es der RDA an einem großen übergeordneten Konzept fehlt und 
somit keine Richtung erkennbar ist. CODATA ist eine internationale Organisation, 
die vornehmlich an politischen Richtlinien arbeitet und sich mit verschiedenen 
Netzwerk-Methoden insbesondere auch an Entwicklungsländer richtet. World Data 
Systems (WDS) hat sich insbesondere der Qualität und Persistenz von Repositorien 
gewidmet und dann unter dem Dach der RDA zusammen mit der Data-Seal-of-Ap- 
proval-Initiative den neuen gemeinsamen Standard, CoreTrustSeal, für die Zertifi- 
zierung von Repositorien ausgearbeitet. Etwas neueren Datums ist die GO FAIR In- 
itiative,“? die Impulse setzen will, indem sie über die Spezifikation hinausgeht und 
Standards implementieren will. Die Formulierung der FAIR-Prinzipien geht auf die 
Gründer der GO-FAIR-Initiative zurück, die es verstanden, längere Diskussionen zu 
prägnanten Aussagen zu bündeln. Unter dem Mantel einer RDA-Arbeitsgruppe wird 
momentan an FAIR-Maturity-Indikatoren°® gearbeitet, wobei es das vordringliche 
Ziel ist, auch Software bereitzustellen, die automatische Tests der FAIRness von Da- 
tensätzen erlaubt. 

Gegenwärtig zeichnet sich eine breite internationale Einigkeit über die FAIR- 
Prinzipien ab. In der RDA-Maturity-FAIR-Indicator-Gruppe wird intensiv an Regeln 


49 S. https://www.coretrustseal.org. 
50 S. https://www.rd-alliance.org/groups/fair-data-maturity-model-wg. 
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gearbeitet, um die FAIRness festzustellen, und es soll auch auf nutzbare Software 
hingewiesen werden. Ebenfalls arbeitet eine breite Gruppe von Expertinnen und Ex- 
perten an der Umsetzung der FAIR-Prinzipien mittels des Konzepts der FAIR Digital 
Objects. Eine Reihe von Kernkomponenten, wie z.B. das Handle PID System, das 
Digital Object Interface Protokoll, die Data Type Registry und die Kernel-Attribute, 
wurden größtenteils in RDA-Gruppen spezifiziert und anschließend implementiert. 
Ebenfalls erfolgen in verschiedenen Projekten Implementierungen und Testbett-Ent- 
wicklungen. 

Von großer Bedeutung für die Wiederverwendung von Daten ist auch das Vor- 
handensein von „rich“ Metadaten, wobei der in FAIR verwendete Begriff „rich“ be- 
wusst vage gehalten ist. Letztlich geht es darum, die Wissensdifferenz zwischen den 
lokal arbeitenden Erzeugerinnen und Erzeugern von Daten und den global arbeiten- 
den Benutzerinnen und Benutzern zu überbrücken. Die Art der benötigten Metada- 
ten hängt allerdings sehr stark vom Verwendungszweck ab. Für allgemeine Suchen 
reichen typischerweise Attribute wie „Autor, Titel, grobe Disziplinklassifizierung, 
Institution“ u.ä. aus. Für das gezielte wissenschaftliche Suchen zur Auswahl von 
Daten für spezifische Operationen reicht das nicht aus und disziplinspezifische At- 
tribute sind erforderlich. Ebenso sind für die Orchestrierung automatischer Work- 
flows sehr spezifische Beschreibungen des Datentyps erforderlich. Der Bereich der 
Metadaten ist bisher keineswegs vernünftig im Sinne von maschinenlesbaren Ver- 
fahren gelöst. So fehlen z.B. klare Kategorisierungen von Metadatentypen, auffind- 
bare und harmonisierte Registraturen bzw. aktuell gehaltene Mappings für Schemas 
und Vokabulare sowie einfache Ontologie-unterstützte Editoren. Große Einigkeit be- 
steht darin, dass Metadaten unabhängig von der Art der internen Handhabung als 
RDF-Aussagen exportiert werden sollten, um mittels Linked-Data-Methoden Infe- 
renzen und anderes bilden zu können. 

Die dargestellten Verfahren basieren allesamt darauf, dass eine funktionierende 
und ständig erweiterte Basisinfrastruktur vorhanden ist. Netzwerk-, Speicher- und 
CPU-Kapazitäten müssen ständig erweitert werden, um die höheren Bedarfe abzusi- 
chern. Cloud-Systeme stellen dabei einen neuen Ansatz dar, der es erlaubt, schnell 
mit großen Mengen an Objekten zu arbeiten und auch effizient mit großen Rechner- 
kapazitäten (Virtual Machines) umzugehen. Insbesondere die großen IT-Firmen bie- 
ten verlockende Dienste an, wobei allerdings große Fragen hinsichtlich der Nutzung 
und Sicherheit der Daten aufgeworfen werden. Die Regeln der europäischen General 
Data Protection Regulation (GDPR) stellen dabei einen sehr strikten Rahmen für die 
Verwendung personenbezogener Daten dar. 
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3 Nationalstaatliche Treiber 


Wie bereits dargestellt, muss die Entwicklung neuartiger Dateninfrastrukturen von 
den Staaten gefördert werden, um ihren verschiedenen Akteurinnen und Akteuren 
die Mittel zu geben, unnötige Ausgaben zu vermeiden und neue Erkenntnisse zu er- 
möglichen bzw. neue Wertschöpfungsketten und Jobs zu realisieren. Dies alles er- 
folgt unter den Rahmenbedingungen eines harten internationalen Konkurrenzwett- 
bewerbs. 

Daher haben sich vor allem die nord- und westeuropäischen Staaten frühzeitig 
finanziell engagiert. Erste große Programme wurden gemeinsam mit der Grid-Initia- 
tive?! gestartet, die jedoch sehr schnell von IT-Aspekten geleitet wurde und trotz ei- 
nes hohen Wissenszuwachses bei den direkt Beteiligten zu keinen wesentlichen Im- 
pulsen führte, sieht man einmal von den positiven Folgen z.B. für die Hochenergie- 
physik und der Wegbereiter-Funktion für das Cloud-Computing ab. In einer zweiten 
Welle beteiligten sich im Wesentlichen die meisten europäischen Staaten am ESFRI- 
Prozess und finanzierten auch selbst umfangreiche Infrastrukturprojekte und Pro- 
jekte, in denen die Digitalisierung und Aufbereitung von Datensammlungen im Mit- 
telpunkt standen. Dabei wurden verschiedenste Ansätze gefördert mit dem Ergeb- 
nis, dass sich in vielen Sektoren und auch Disziplinen ein klareres Bild davon ab- 
zeichnete, was denn nun Dateninfrastrukturen ausmacht, was generisch und was 
sektor- bzw. disziplinspezifisch angegangen werden muss. 

Gleichzeitig wurden Initiativen gebildet, um Diskussionsprozesse zu starten, 
die Beiträge in Richtung einer höheren Kohärenz der Datenlandschaft liefern und 
Brücken bilden sollen. Im Bereich der Wissenschaft sind in Deutschland vor allem 
die Allianz-Initiative” „Digitale Information“, die 2008 von der Allianz der deut- 
schen Wissenschaftsorganisationen gegründet wurde, und der Rat für Informations- 
infrastrukturen (RfII)” zu nennen. Während Erstere für die Datenpraxis wenig sicht- 
bare Resultate brachte, formulierte Letztere die Rahmenbedingungen für die NFDI, 
die jetzt mit der Bildung von breiten und vernetzten Konsortien eine konkrete Form 
angenommen haben. 

Deutschland hat mit der NFDI einen umfassenden neuen Anstoß gegeben, der 
parallel zur europäischen EOSC Beiträge liefern soll, und ist gleichzeitig Vorreiter 
für weitere nationale und regionale Programme in Europa. Wie bereits angedeutet, 
setzt die NFDI-Initiative auf ein Primat der wissenschaftsgetriebenen Ansätze. Soge- 
nannte Querschnittsthemen sollen in einem zweiten Ansatz behandelt werden, was 
das Risiko in sich birgt, dass technologisch innovative Konzepte nicht verfolgt wer- 
den und somit anderen das Feld für Innovation überlassen wird. 


51 S. https://gauss-allianz.de/de/network/NGI-DE. 
52 S. https://www.allianzinitiative.de. 
53 S. http://www.rfii.de. 
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Erhebliche nationale (öffentliche und private) Mittel werden in den Ausbau der 
Al investiert, wobei sich vor allem auch der Bitkom™ engagiert. Es bedarf der Ergän- 
zung des Methodenkanons, um Wissen zu extrahieren, des Verfügbarmachens die- 
ser Methoden in einfacher Weise und vor allem auch der Ausbildung einer Genera- 
tion von Expertinnen und Experten, die verstehen, mit diesen Methoden umzuge- 
hen. Auch bezüglich der Ausbildung von Datenmanagerinnen und Datenmanagern 
sowie Data Stewards ist von den Ausbildungseinrichtungen ein dringender Nach- 
holbedarf erkannt worden. An verschiedenen Universitäten und Fachhochschulen 
werden Curricula entworfen und auch schon angeboten.” Dies sind Maßnahmen, 
die sich in ein paar Jahren auszahlen werden. 


4 Bundeslandspezifische Treiber 


Viele Bundesländer haben in den letzten Jahren eigene Digitalstrategien entwickelt 
und in ihren Bildungsministerien oder zentralen Forschungseinrichtungen veran- 
kert und kommen somit ihrer Verantwortung für die Weiterentwicklung der Hoch- 
schulen nach, die durch die zunehmende Bedeutung der Daten erforderlich ist. Eini- 
ge Beispiele hierfür sind: 

Das Land Baden-Württemberg hat ein Fachkonzept von fünf zentralen Hand- 
lungsfeldern publiziert: Lizenzierung elektronischer Informationsmedien, Digitali- 
sierung, Open Access, Forschungsdatenmanagement, Virtuelle Forschungsumge- 
bungen”. In vier zentralen Forschungsdatenzentren (Science Data Centers, SDC) 
werden Forschung und Ausbildung bezüglich Datenwissenschaft und -management 
verschiedener Fachbereiche vorangetrieben.” Des Weiteren wurde und wird eine 
Bandbreite von datenbezogenen Diensten und Projekten zu verschiedensten Berei- 
chen der Lehre und Forschung entwickelt und vom Arbeitskreis der Leiterinnen und 
Leiter der wissenschaftlichen Rechenzentren in Baden-Wiirttemberg™ bereitgestellt. 

In Bayern wird an der Plattform ,,Forschungsdatenmanagement“” gearbeitet, 
um die bayerischen Akteure und Projekte zu vernetzen. 

Im Land Berlin wurde 2015 ein Open-Access-Biiro® gegründet, das die beteilig- 
ten Akteure‘! koordiniert. Des Weiteren ist ein regionales Datenzentrum Digital Hu- 
manities geplant. 


54 S. https://www.bitkom.org/Bitkom/Organisation/Gremien/Big-Data-und-Advanced-Analytics. 
html. 

55 Z.B. https://www.ddm-master.de/. 

56 Vgl. Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg n.d. 

57 Vgl. Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg 2019. 

58 S. https://www.alwr-bw.de/kooperationen. 

59 S. https://www.fdm-bayern.org. 
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In Brandenburg wurde im Rahmen eines Forschungsprojekts eine Open-Access- 
Strategie” entwickelt, die 2019 veröffentlicht wurde. 

Die Hamburger Bildungs- und Wissenschaftseinrichtungen haben sich zu einer 
hochschulübergreifenden Strategie „Hamburg Open Science“®? zusammengeschlos- 
sen. Dariiber hinaus bietet z.B. die Universitat Hamburg mit ihrem Zentrum fiir 
nachhaltiges Forschungsdatenmanagement™ Beratungsangebote und ein Reposito- 
rium an. Die Stadt Hamburg veröffentlicht im Rahmen eines Open-Data-Aktions- 
plans ihre Verwaltungsdaten im Transparenzportal Hamburg®. 

In Hessen haben sich elf hessische Hochschulen in der Landesinitiative ,,Hessi- 
sche Forschungsdateninfrastrukturen“ (HeFDI) zusammengeschlossen, um mittels 
eines Repositoriums, Beratungs- und Service-Leistungen ihr Forschungsdatenma- 
nagement zu verbessern. 

In Niedersachsen wurde 2017 eine Digitalisierungsoffensive gestartet und das 
Zentrum für digitale Innovationen Niedersachsen (ZDIN)® gegründet. 

In Nordrhein-Westfalen wurde die zentrale Koordinierungsstelle „fdm.nrw“‘® 
aufgebaut, das die Hochschul- und Landesaktivitäten koordiniert, auch im Hinblick 
auf Verknüpfung mit der NFDI und anderen bundesweiten Aktivitäten. 

In Schleswig-Holstein wurde der Schwerpunkt der Digitalisierung auf Open Ac- 
cess und Open Data gelegt. So hat die Landesregierung eine „Strategie 2020 für 
Open Access“? initiiert, an der die Hochschulen sowie die Wissenschaftlerinnen 
und Wissenschaftler die Hauptakteurinnen und -akteure sind. Zusätzlich werden 
Daten der öffentlichen Einrichtungen über Repositorien’® zugänglich gemacht. 

Die Thüringer Strategie für die Digitale Gesellschaft”! umfasst verschiedene Be- 
reiche der Gesellschaft: Wirtschaft 4.0 wurde 2016 gestartet. Danach folgten „Mittel- 
stand 4.0“, „Digitale Landesentwicklung für den städtischen und ländlichen 


60 S. http://www.open-access-berlin.de/strategie. 

61 S. http://www.open-access-berlin.de/akteure/index.html. 

62 Vgl. Ministerium für Wissenschaft, Forschung und Kultur des Landes Brandenburg n.d. Hier 
werden die Themenfelder des Ministeriums beschrieben und die Open-Access-Strategie verlinkt. 
63 S. https://openscience.hamburg.de/de/ueber-uns/beteiligte-institutionen. 

64 S. https://www.fdm.uni-hamburg.de. 

65 S. http://transparenz.hamburg.de/open-data. 

66 S. https://www.lhk-niedersachsen.de/positionen/digitalisierung und https://www.niedersach- 
sen.de/startseite/themen/digitales_niedersachsen. 

67 S. http://www.zdin.de. 

68 S. https://www.fdm.nrw. 

69 S. https://www.schleswig-holstein.de/DE/Fachinhalte/H/hochschule_allgemein/OpenAccess. 
html. 

70 S. https://www.schleswig-holstein.de/DE/Landesregierung/Themen/Digitalisierung/Transpa- 
renzportal/transparenzportal.html. 

71 S. https://www.digital-thueringen.de. 
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Raum“, „Bildung und Forschung digital“ sowie Querschnittsthemen; 2019 wurde 
die Digitalstrategie aktualisiert. 

Der Schwerpunkt der Landesaktivitäten liegt in der Bereitstellung von Reposito- 
rien, der Definition von Rahmenrichtlinien sowie insbesondere auch der Vernetzung 
der Expertinnen und Experten. Außerdem bieten sie Schulungen des Fachperso- 
nals, um möglichst frühzeitig Trends zu identifizieren und darauf reagieren zu kön- 
nen. Hinzu kommt natürlich, dass es einige Hochschulen Bildungsangebote im Be- 
reich des FDM entwickelt haben. 


Fazit 


Die Vorstellung der FAIR-Prinzipien hat allen Akteurinnen und Akteuren bis hin zu 
den Entscheidungstragenden verdeutlicht, dass das FDM bereits jetzt nicht optimal 
erfolgt und dass die Ineffizienzen und Verluste sich angesichts der zunehmenden 
Datenvolumina und vor allem der Komplexität noch potenzieren würden, wenn die 
Wissenschaftsgemeinde nicht entschieden gegensteuern würde. Dabei ist seitens 
der politischen Ebene erkannt worden, dass große Investitionen erforderlich sein 
werden, um wirklich eine Open-Science-Landschaft aufzubauen und sich somit 
auch dem kommerziellen Druck entgegenzustellen. 

Auf der Ebene der Expertinnen und Experten sind Europa und insbesondere 
auch Deutschland gut aufgestellt. Es gibt ein breites Wissen durch den ESFRI-Pro- 
zess und viele andere Maßnahmen auch auf nationalem Niveau. Es waren europäi- 
sche und zum großen Teil deutsche Expertinnen und Experten, die die RDA voran- 
getrieben haben aus dem Wissen heraus, dass nur globale Standards helfen 
werden. Es waren vor allem europäische Expertinnen und Experten, die die FAIR- 
Prinzipien formuliert haben. 

Das Beispiel der Diskussion um die FAIR-Digitalen-Objekte zeigt aber auch, 
dass es in Europa wiederum zu wenig Bereitschaft gibt, neue integrative Technolo- 
gien auszutesten und damit den konzeptionellen Vorsprung auch in einen Imple- 
mentationsvorsprung umzusetzen. 
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Achim Streit und Jos van Wezel 
1.2 Deutschland in der European Open 
Science Cloud 


Abstract: Schlagwörter wie Open Access, Open Data und Open Science beschäftigen 
bereits seit einigen Jahren die Wissenschaftswelt im Zeitalter der Digitalisierung. 
Forschungsdatenmanagement (FDM) und die European Open Science Cloud (EOSC) 
sind dabei zuletzt die Hauptstoßrichtungen. In der folgenden Abhandlung wird auf 
den aktuellen Stand von „Deutschland in der EOSC“ zum Zeitpunkt Ende 2019/An- 
fang 2020 eingegangen; ohne jedoch einen Anspruch auf Vollständigkeit zu stellen. 
Nach einer Einführung in die Entstehungsgeschichte der EOSC werden die relevan- 
ten Initiativen und Projekte beschrieben, in denen Institutionen aus Deutschland 
beteiligt sind. Alsdann folgen Beschreibungen ausgewählter nationaler Initiativen, 
die einen Bezug zur EOSC aufweisen, sowie Ausführungen zu technischen Aspekten 
wie auch zu Beiträgen aus den verschiedenen Wissenschaftsdisziplinen. 


Einleitung 


In den letzten Jahren artikulierten zahlreiche politische Entscheidungsträger auf 
der ganzen Welt sehr stark eine klare und konsistente Vision von globaler, offener 
Wissenschaft (Open Science) als ein Treiber zur Realisierung transparenter, daten- 
getriebener Forschung und schnelleren Innovationen.! In Europa wird diese Vision 
durch ein ambitioniertes Programm mit dem Titel „European Open Science Cloud“ 
(EOSC) realisiert.” Zentrales Ziel der EOSC ist nicht weniger als eine globale Füh- 
rungsrolle der Europäischen Gemeinschaft im Forschungsdatenmanagement sowie 
dafür zu sorgen, dass europäische Forscherinnen und Forscher alle Vorteile daten- 
getriebener Forschung offenstehen. 


The EOSC will offer 1.7 million European researchers and 70 million professionals in science, 
technology, the humanities and social sciences a virtual environment with open and seamless 
services for storage, management, analysis and re-use of research data, across borders and sci- 
entific disciplines by federating existing scientific data infrastructures, currently dispersed 
across disciplines and the EU Member States.” 


1 Vgl. Council of the European Union 2016. 

2 S. https://www.eosc-portal.eu/about/eosc sowie Budroni, Burgelman und Schouppe 2019. Letztes 
Abrufdatum der Internet-Dokumente ist der 15.11.2020. 

3 S. https://www.eosc-portal.eu/about/eosc. 


3 Open Access. © 2021 Achim Streit und Jos van Wezel, publiziert von De Gruyter. [Ea] Dieses Werk ist 
lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-003 
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Die EOSC wurde von der Europäischen Kommission im Jahre 2016 als Teil der Euro- 
päischen Cloud Initiative zum Aufbau einer kompetitiven Daten- und Wissensöko- 
nomie in Europa vorgeschlagen.” Bereits früh hatte die Europäische Kommission 
eine EOSC Expertengruppe gebildet, in der aus Deutschland Klaus Tochtermann 
vom Leibniz-Informationszentrum Wirtschaft (ZBW) Mitglied war. Der erste Bericht 
dieser EOSC Expertengruppe mit dem Titel „Realising the European Open Science 
Cloud“ wurden Ende 2016 veröffentlicht und enthielt erste Empfehlungen zur kon- 
kreten Realisierung einer EOSC.° 

In den Jahren 2016 bis 2017 fanden intensive Konsultationen mit den Mitglied- 
staaten sowie wissenschaftlichen und institutionellen Interessenvertretern statt. 
Auf dem ersten EOSC Summit im Juni 2017 in Brüssel wurde dort die „EOSC Declara- 
tion“ verabschiedet und von mehr als 70 Institutionen in ganz Europa befürwortet. 

Als Ergebnis des intensiven Konsultationsprozesses präsentierte die Europäi- 
sche Kommission im März 2018 ihre „Implementation Roadmap for the European 
Open Science Cloud“.’ Dieser Implementierungsfahrplan enthielt u. a. ein mögliches 
EOSC Modell (mit den sechs Aktionslinien Architektur, Daten, Dienste, Zugang und 
Schnittstellen, Teilnahmeregeln und Governance), Schlüsselaktionen und Meilen- 
steine sowie eine Beschreibung zukünftiger Projektausschreibungen. Der Rat für In- 
formationsinfrastrukturen (RfIT) in Deutschland verfasste im April 2018 eine Stel- 
lungnahme zu diesen Vorschlägen zur EOSC.® 

Im November 2018 wurden Berichte von gleich zwei Expertengruppen veröffent- 
licht. Die bereits existierende EOSC Expertengruppe brachte ihren zweiten und fina- 
len Bericht „Prompting an EOSC in practice“? heraus, in dem u.a. auf die Verbin- 
dung von Personen, Daten, Diensten, Weiterbildung, Veröffentlichungen, Projekten 
und Organisationen eingegangen wurde. Eine zweite Expertengruppe der europäi- 
schen Kommission zum Thema FAIR Data!’ veröffentlichte nahezu zeitgleich ihren 
Bericht „Turning FAIR into reality“, in dem über den Status quo zum transparenten, 
reproduzierbaren und interoperablen Umgang mit Daten und digitalen Objekten so- 
wie notwendige Aktionen zur Verstärkung von Open Science und zur Entwicklung 
der EOSC berichtet wurde." Aus Deutschland war Peter Wittenburg von der Max- 
Planck-Gesellschaft Mitglied dieser FAIR Data Expertengruppe. 


4 Vgl. European Commission 2016a. 

5 Vgl. European Commission 2016b. 

6 S. https://eosc-portal.eu/sites/default/files/eosc_declaration.pdf. 

7 Vgl. European Commission 2018a. 

8 Vgl. Rat für Informationsinfrastrukturen 2018. 

9 Vgl. European Commission 2018b. 

10 Die FAIR-Prinzipien zu Data sind: Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wieder- 
verwendbarkeit, s. https://www.go-fair.org/fair-principles/. 

11 Vgl. European Commission 2018c. 
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Am 23. November 2018 fand in Wien im Rahmen des österreichischen Vorsitzes 
im Rat der Europäischen Union die offizielle Auftaktveranstaltung zum Start der 
EOSC statt,'? bei dem eine erste Version des EOSC Portals” als Zugangspunkt zur 
EOSC vorgestellt und demonstriert wurde. Das EOSC Portal dient als erste Kontakt- 
stelle und Informationsquelle rund um die EOSC und bietet neben einer Übersicht 
über angeschlossene Dienste auch Hinweise und Unterstützung bei der Aufnahme 
von Diensten, die bereits von Forschungseinrichtungen angeboten werden." 

Seitdem gab und gibt es zahlreiche Initiativen und Projekte auf europäischer Ebe- 
ne, die die Implementierung, Steuerung und Anbindung von wissenschaftlichen Nut- 
zerinnen und Nutzern sowie Forschungsinfrastrukturen adressierten. Eine Auswahl 
dieser mit einem Fokus auf die deutsche Beteiligung wird im Folgenden beschrieben. 


1 Kartierung 


Die folgende Liste von Initiativen rund um das EOSC wurde Ende 2019 zusammen- 
gestellt. Möglicherweise ist diese Liste nicht vollständig. 


1.1 EOSC-Initiativen mit deutscher Beteiligung 


Im Folgenden werden EOSC-Initiativen in Europa aufgeführt, in denen Einrichtun- 
gen aus Deutschland beteiligt sind. Unter dem EOSC Portal” ist eine umfassende 
Übersicht verfügbar und im CORDIS-System der europäischen Kommission! sind 
darüber hinaus weitere Information abrufbar. 


Unterstützung der EOSC Koordinationsstrukturen 


Das folgende Projekt ist aus der Ausschreibung INFRAEOSC-05-2018-2019 (Teil a)” 

entstanden. 

-  EOSCsecretariat.eu:'® Koordiniert durch Technopolis Consulting in Belgien bie- 
tet das Projekt eine umfangreiche Unterstützung zur Organisation und zum 


12 S. https://eosc-launch.eu/home. 

13 S. https://www.eosc-portal.eu. 

14 S. https://www.eosc-portal.eu/for-providers. 

15 S. https://www.eosc-portal.eu/about/eosc-projects. 

16 S. https://cordis.europa.eu/about/de. 

17 S. https://cordis.europa.eu/programme/rcn/703191/en. 
18 S. https://www.eoscsecretariat.eu. 
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Funktionieren der verschiedenen EOSC-Governance-Gremien an. Dariiber hin- 
aus gibt es Unterstiitzungsaktivitaten zur Beantwortung von Fragen zum orga- 
nisatorischen und rechtlichen Aufbau der EOSC sowie zur Einbindung der ge- 
samten EOSC-Gemeinde. Auch die Koordination der Aktivitäten der EOSC-bezo- 
genen Projekte ist eine Kernaktivität von EOSCsecretariat.eu. Das Projekt hat 
sich zur Neutralität verpflichtet und stellt sicher, dass der EOSC-Entwicklungs- 
prozess nur von den verschiedenen Boards und Interessenten bestimmt wird.” 
Aus Deutschland beteiligt sind das Karlsruher Institut fiir Technologie (KIT) zu- 
sammen mit dem Forschungszentrum Jiilich (FZJ). 


Koordination nationaler und thematischer Initiativen 


Die folgenden Projekte sind aus der Ausschreibung INFRAEOSC-05-2018-2019 (Teil 
b)” entstanden. 


EOSC-Pillar:?! Koordiniert durch Consortium GARR, der Betreiber des Italieni- 
schen Forschungsnetz und vergleichbar mit dem Deutschen Forschungsnetz 
(DFN), adressiert das Projekt die Idee, einen kohärenten Beitrag zur EOSC aus 
den Ländern Italien, Frankreich, Deutschland, Österreich und Italien zu leisten 
sowie eine virtuellen Umgebung mit transparentem und einfachen Zugang zu 
Diensten für die Speicherung, Verwaltung, Analyse und Wiederverwendung 
von Forschungsdaten über Grenzen und wissenschaftliche Disziplinen hinweg 
zu etablieren. Aus Deutschland beteiligt sind das Deutsche Klimarechenzen- 
trum (DKRZ), das Fraunhofer-Institut für Werkstoffmechanik, das Geofor- 
schungszentrum Potsdam (GFZ) und das KIT. Das Projekt bringt zudem die 
Tools und Services aus der Materialwissenschaft und Werkstofftechnik in die 
EOSC ein. 

EOSC-Synergy:” Koordiniert durch Consejo Superior de Investigaciones Cientifi- 
cas (CSIC) in Spanien zielt das Projekt auf Kapazitätsaufbau (building capacity), 
die Entwicklung von Fähigkeiten (developing capability) sowie Software Quali- 
ty as a Service (SQaaS) ab. Im Vordergrund steht die Föderation existierender 
nationaler, digitaler E-Infrastrukturen, wissenschaftlicher Daten und themati- 
scher Dienste in den Ländern Spanien, Portugal, Polen, Tschechien, Slowakei, 
Niederlande, Vereinigtes Königreich, Frankreich und Deutschland sowie deren 
Öffnung für die EOSC auf Basis eines qualitätsgetriebenen Ansatzes zur Integra- 
tion von Diensten. Aus Deutschland beteiligt ist das KIT. 


19 S. Abschnitt 2.1. 
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EOSC-Nordic:” Koordiniert durch NordForsk in Norwegen zielt das Projekt auf 
die Integration nordeuropäischer und baltischer Staaten in die EOSC ab. Im Fo- 
kus steht die Koordination EOSC-relevanter Initiativen in den Landern Norwe- 
gen, Schweden, Finnland, Estland, Litauen, Lettland, Island, Dänemark und 
den Niederlanden. Ziel ist die Schaffung von Synergien durch eine größere Har- 
monisierung von Richtlinien sowie der Diensterbringung, um kompatibel mit 
EOSC-weiten Standards und bewährten Vorgehensweisen zu sein. Aus Deutsch- 
land beteiligt ist das DKRZ. 

ExPaNDS:”* Koordiniert durch das Deutsche Elektronen-Synchrotron (DESY) in 
Hamburg fokussiert das Projekt auf die Photonen-und-Neutronen-Wissenschaft 
(PaN-Wissenschaft) mit dem Ziel, die EOSC mit Datenmanagement-Diensten zu 
erweitern, um die Daten der PaN-Infrastrukturen in Europa gemäß den FAIR 
Prinzipien zu öffnen, die zugehörigen Datenkataloge zu harmonisieren und 
durch die EOSC verfügbar zu machen. Aus Deutschland beteiligt ist weiterhin 
noch das Helmholtz-Zentrum Dresden-Rossendorf (HZDR). 


Ein weiteres Projekt in dieser Ausschreibung, jedoch ohne deutsche Beteiligung, ist 
NI40S-Europe” für den südosteuropäischen Raum. 


Alle genannten fünf Projekte wurden ins Leben gerufen, um regionale und na- 


tionale Dienste für die EOSC durch Integration mit dem etablierten Rahmen von 
EOSC-hub* bereitzustellen und die Entwicklung der EOSC den Forscherinnen und 
Forschern der beteiligten Länder noch stärker nahezubringen. 


Akzeptanz und Einhaltung der FAIR Prinzipien in allen Wissenschaftsgebieten 


Das folgende Projekt ist aus der Ausschreibung INFRAEOSC-05-2018-2019 (Teil a)” 
entstanden. 


FAIRSFAIR:”® Das von Data Archiving and Networked Services (DANS) in den 
Niederlanden koordinierte Projekt wird praktikable und nutzbare Lösungen zur 
Umsetzung der FAIR Prinzipien?” im gesamten Datenlebenszyklus zur Verfü- 
gung stellen. Ein Schwerpunkt liegt auf der Förderung einer FAIRen Datenkul- 
tur und in der Verbreitung von erprobten Ansätzen und guter Praxis mit Hilfe 
einer Plattform zur Nutzung und Umsetzung der FAIR Prinzipien. Aus Deutsch- 


23 S. https://www.eosc-nordic.eu. 

24 S. https://expands.eu. 

25 S. https://ni4os.eu. 

26 S. Abschnitt 2.2. 

27 S. https://cordis.europa.eu/programme/rcn/703191/en. 
28 S. https://www.fairsfair.eu. 
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land beteiligt sind die Universitäten in Bremen und Göttingen sowie DataCite 
e. V. mit Sitz in Hannover. 


30 
Verbindung von ESFRI (European Strategy Forum on Research Infrastructures) 
Infrastrukturen mit der EOSC 


Die 


folgenden Projekte sind aus der Ausschreibung INFRAEOSC-04-2018° entstan- 


den. 


PaNOSC:” Koordiniert von der European Synchrotron Radiation Facility (ESRF) 
in Frankreich zielt das Projekt auf die Anwendung der FAIR-Prinzipien auf Da- 
ten von sechs europäischen Forschungsinfrastrukturen im Themenfeld der PaN- 
Wissenschaft ab. Im Vordergrund steht dabei die Etablierung von Verbindun- 
gen zwischen EOSC- und PaN-Forschungsinfrastrukturen, Daten aus diesen For- 
schungsinfrastrukturen FAIR zu machen sowie die Standardisierung von Daten- 
policies, Metadaten und Data Stewardship Handlungsweisen in zahlreichen eu- 
ropdischen PaN-Forschungseinrichtungen. Aus Deutschland beteiligt ist die 
XFEL GmbH in Hamburg. 

SSHOC:® Ziel des vom Consortium of European Social Science Data Archives 
(CESSDA ERIC) mit Sitz in Norwegen koordinierten Projektes ist, die Disziplinen 
der Geistes- und Sozialwissenschaften in der EOSC zu etablieren. Im Vorder- 
grund steht die Einrichtung eines effizienten, skalierbaren Zugangs zu For- 
schungsdaten und zugehörigen Services im Rahmen der EOSC in diesen Wis- 
senschaftsdisziplinen. Dazu werden Open Science- und FAIR-Prinzipien im For- 
schungsdatenmanagement angewendet. Das Projekt hat ebenfalls zum Ziel, die 
existierenden und neuen Forschungsinfrastrukturen in diesen Wissenschafts- 
disziplinen zusammenzubringen, um Synergien und neues Forschungspotential 
zu realisieren. Aus Deutschland beteiligt sind das Deutsche Archäologische In- 
stitut in Berlin und das Survey of Health, Ageing and Retirement in Europe 
(SHARE) ERIC mit Sitz in München. 

EOSC-Life.*“ Die Lebenswissenschaften mit 13 biologischen und medizinischen 
ESFRI Forschungsinfrastrukturen haben sich unter der Leitung des European 
Molecular Biology Laboratory (EMBL) in Heidelberg zusammengeschlossen, um 
einen offenen, digitalen und kollaborativen Raum für die biologische und medi- 
zinische Forschung zu etablieren. Es werden FAIRe Daten publiziert, sowie ein 
Katalog an Diensten aufgestellt, der das Management, die Speicherung und 


30 S. https://www.esfri.eu. 
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Wiederverwendung von Daten unter der EOSC ermöglicht. Aus Deutschland be- 
teiligt sind das EU-OpenScreen ERIC mit Sitz in Berlin, die Charité, das FZJ, die 
Infrafrontier GmbH in Oberschleißheim, das Helmholtz-Zentrum München - 
Deutsches Forschungszentrum für Gesundheit und Umwelt (HMGU) und die 
Universität Freiburg. 

— ESCAPE.” Unter der Leitung des Centre National de la Recherche Scientifique 
(CNRS) in Frankreich haben sich die ESFRI Infrastrukturen in der Astronomie 
und Teilchenphysik zusammengeschlossen, um gemeinsam eine funktionieren- 
de Verbindung zur EOSC aufzubauen. Alle beteiligten Infrastrukturen stehen 
vor ähnlichen Herausforderungen in der datenintensiven Forschung, weshalb 
gemeinsame Lösungen insbesondere in den Themen Open-Data-Management, 
domänenüberschreitende sowie multidisziplinäre, offene und FAIRe For- 
schungsumgebungen angestrebt werden. Aus Deutschland beteiligt sind DESY, 
das Leibniz-Institut für Astrophysik Potsdam (AIP), das GSI Helmholtzzentrum 
für Schwerionenforschung, die FAIR GmbH, das Leibniz-Institut für Sonnenphy- 
sik (KIS) in Freiburg, die Universitäten Erlangen-Nürnberg und Heidelberg, das 
European Southern Observatory (ESO) in Garching, die Max-Planck-Gesell- 
schaft, die CTA GmbH sowie die HITS gGmbH in Heidelberg. 

— ENVRI-FAIR®: Unter Leitung des FZJ haben sich verschiedene ESFRI-For- 
schungsinfrastrukturen in der Umweltforschung zusammengefunden um FAIRe 
Datendienste fiir diese Forschungsinfrastrukturen zu entwickeln und diese mit 
der EOSC zu verbinden. Thematisch wird das gesamte Erdsystem in voller Kom- 
plexität u.a. mit Atmosphäre, Meere, Erde sowie Biodiversität abgedeckt. Neben 
der Entwicklung von Datendiensten steht auch die Erarbeitung von standardi- 
sierten Vorgehensweisen und Schnittstellen im Fokus der Aktivitäten. Aus 
Deutschland beteiligt ist weiterhin die Technische Informationsbibliothek (TIB) 
in Hannover. 


Verbesserung des EOSC-Portals und Verbindung von thematischen Clouds (Call IN- 
FRAEOSC-06-2019-2020) 


Das folgende Projekt ist aus der Ausschreibung INFRAEOSC-06-2019-2020° entstan- 

den. 

- EOSC Enhance:”® Koordiniert durch die Nationale und Kapodistrias-Universität 
Athen verfolgt das Projekt mehrere Ziele, um die Auffindbarkeit der im EOSC- 
Katalog registrierten EOSC-Dienste zu verbessern. Dazu wird die Service Provi- 


35 S. https://projectescape.eu/. 

36 S. https://envri.eu/home-envri-fair. 

37 S. https://cordis.europa.eu/programme/rcn/703192/en. 
38 S. https://www.einfracentral.eu. 
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der-Schnittstelle Application Programming Interface (API) verbessert und neue 
Dienste und Ressourcen, insbesondere aus ESFRI-Clustern und thematischen 
Clouds, in den EOSC-Katalog aufgenommen. Das Projekt wird das Verfahren zur 
Inanspruchnahme von Diensten beschleunigen und die Nachfrage von Nutze- 
rinnen und Nutzer durch die Weiterentwicklung und Verbesserung von Portalen 
steigern. Aus Deutschland beteiligt ist das EMBL in Heidelberg. EOSC Enhance 
ist das Nachfolgeprojekt von eInfraCentral. 


1.2 Initiativen in Deutschland mit Bezug zur EOSC 


In Deutschland existieren derzeit einige Initiativen bzw. sind im Aufbau begriffen, 
die einen direkten oder indirekten Bezug zur EOSC besitzen. Im Folgenden wird ein 
Uberblick, ohne Anspruch auf Vollstandigkeit, gegeben: 

- Nationale Forschungsdateninfrastruktur (NFDI): Die Bundesregierung sowie die 
Regierungen der Länder haben in gemeinsamer Verantwortung durch die Ge- 
meinsame Wissenschaftskonferenz (GWK) die Förderung der NFDI im Novem- 
ber 2018” beschlossen. In drei Förderrunden, beginnend mit der ersten Aus- 
schreibung in 2019 zur Realisierung in 2020 und begleitet durch die DFG,“ soll 
durch bis zu 30 Konsortien ein Portfolio an FAIRen Datendiensten entwickelt 
werden, die sich entlang von Wissenschaftsdisziplinen bzw. -gemeinschaften 
orientieren. Unterstützt durch ein NFDI Direktorat am Standort Karlsruhe zielt 
die NFDI auch darauf ab, zur Entwicklung der EOSC beizutragen und deutsche 
Dateninfrastrukturen mit europäischen und internationalen Plattformen zu ver- 
binden. Darüber hinaus gibt es weitere Förderprogramme auf Bundes- und Län- 
derebene z.B. für Big Data Kompetenzzentren“! und e-Science.”? 

- Helmholtz Data Federation:* Die Helmholtz Data Federation (HDF) ist eine stra- 
tegische Initiative und Ausbauinvestition der Helmholtz-Gemeinschaft, die sich 
einer der großen Herausforderungen des nächsten Jahrzehnts annimmt: Die Be- 
wältigung der Datenflut in der Wissenschaft, insbesondere aus den großen For- 
schungsinfrastrukturen der Helmholtz-Zentren. Als Ergänzung und unter Ein- 
satz bestehender Methoden und Softwaretools zum verteilten Management von 
Forschungsdaten bilden multidisziplinäre Rechenzentren an sechs Helmholtz- 
Zentren (AWI, DESY, DKFZ, FZJ, GSI und KIT) mit einem starken thematischen 


39 Vgl. Gemeinsame Wissenschaftskonferenz 2018. 
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Profil den Kern der bundesweiten Forschungsinfrastruktur HDF. Die wissen- 
schaftlichen Anwendungsfelder reichen von der Polar- und Meeresforschung, 
Klimaforschung, Energieforschung über die Gesundheitsforschung bis hin zur 
Photonenforschung sowie Kern- und Teilchenphysik. 

— Helmholtz Federated IT Services (HIFIS):** Aus dem Helmholtz-Inkubator Infor- 
mation & Data Science” entstanden ist das Ziel von HIFIS, eine nahtlose, leis- 
tungsfahige, gemeinschaftsweite IT-Infrastruktur in der Helmholtz zu schaffen. 
Dazu wird im Cloud Services Bereich eine föderierte Plattform mit Diensten wie 
z. B. Sync & Share, im Backbone Services Bereich eine leistungsstarke Netzwerk- 
infrastruktur sowie föderierte Authentifizierung und Authorisierungsinfrastruk- 
tur (AAI) und im Software Services Bereich eine Plattform, Training und Sup- 
port fiir eine nachhaltige Softwareentwicklung aufgebaut. Beteiligt an HIFIS 
sind die Helmholtz-Zentren Alfred-Wegener-Institut Helmholtz-Zentrum fiir Po- 
lar- und Meeresforschung (AWI), DESY, Deutsche Zentrum fiir Luft- und Raum- 
fahrt (DLR), Deutsches Krebsforschungszentrum (DKFZ), FZJ, GFZ, HMGU, 
Helmholtz Zentrum Berlin fiir Materialien und Energie (HZB), HZDR, KIT und 
das Helmholtz-Zentrum fiir Umweltforschung (UFZ). 

— RDA Deutschland e. V.:“° Deutsche Mitgestalter und Vertreter in der internatio- 
nalen Research Data Alliance (RDA)“’ haben sich als deutsche Community im 
RDA Deutschland e.V. zusammengeschlossen. Ziel dieses Vereins ist es, den 
RDA-Ansatz zu fördern, die sozialen und technischen Voraussetzungen für ei- 
nen vermehrten Austausch von Forschungsdaten zu verstärken, Interessierte 
dazu aufzufordern an den Spezifikationen in den RDA-Gruppen mitzuwirken, 
sowie die Resultate der RDA und anderer Initiativen z.B. Open Archive Initiati- 
ve (OAI) und World Wide Web Consortium (W3C) aktiv zu verbreiten bzw. eine 
effiziente Wiederverwendung zu gestalten. Mitglied kann jede voll geschäftsfä- 
hige natürliche Person werden. 

- GO FAIR Initiative:“* Ziel der GO FAIR Initiative ist, die FAIR-Prinzipien über 
Länder- und Disziplingrenzen hinweg zu verbreiten. In einem offenen und bot- 
tom-up-orientierten Ansatz haben sich Deutschland, Frankreich und die Nieder- 
lande zusammengefunden, um für die EOSC ein Internet der FAIRen Daten und 
Dienste zu realisieren. In den genannten Ländern gibt es jeweils ein Unterstüt- 
zungs- und Koordinierungsbüro. In drei Säulen gliedert sich die GO FAIR Initia- 
tive: GO Change’? zielt auf den kulturellen Wandel ab, GO Train adressiert die 


44 S. https://www.hifis.net. 
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Aus- und Weiterbildung und GO Build baut interoperable und föderierte Daten- 
infrastrukturen auf. Aus Deutschland beteiligt ist das ZBW in Kiel. 

-  GAIA-X:°° Das Projekt GAIA-X wurde von den Bundesministerien für Wirtschaft 
und Energie (BMWi) sowie für Bildung und Forschung (BMBF) mit dem Ziel in- 
itiiert, eine vernetzte, leistungsfähige, sichere und vertrauenswürdige Datenin- 
frastruktur für Europa als Wiege eines vitalen, europäischen Ökosystems insbe- 
sondere für die Wirtschaft aufzubauen. Das Projekt sieht die Vernetzung dezen- 
traler Infrastrukturdienste, vor allem Cloud- und Edge-Instanzen, zu einem 
homogenen, nutzungsfreundlichen System vor. Im Konzeptpapier werden Pra- 
xisbeispiele aus der Industrie 4.0, dem Smart Living, dem Finanzsektor, dem 
Gesundheitssystem, der öffentlichen Verwaltung und dem Quantencomputing 
dargestellt. Die Deutsche und Französische Gründungsmitglieder unterzeichne- 
ten am 15.9 die Gründungsurkunden für die GAIA-X AISBL, einer gemeinnützi- 
gen Vereinigung nach belgischem Recht. 


2 Umsetzung der EOSC und deutsche Beteiligung 


Nach der Skizzierung der Kartierung fokussiert dieses Kapitel auf die Beiträge zur 
Umsetzung der EOSC. Hierbei werden technische, administrative und wirtschaftli- 
che Aspekte sowie Beiträge verschiedener wissenschaftlicher Disziplinen und Pro- 
jekte mit deutscher Beteiligung berücksichtigt. 


2.1 Entwicklung der Governance der EOSC 


Gemäß den Empfehlungen des Projekts EOSCpilot” (Hienola et al. 2017) und des fi- 
nalen Berichts der High Level Expert Group zur EOSC* wurden Ende 2018 das Go- 
vernance Board und das Executive Board eingerichtet. Beide Gremien sollen die Ent- 
wicklung der EOSC in enger Zusammenarbeit und mit direkten und nachvollziehba- 
ren Diskussionskanälen zu Interessenvertretern (Stakeholdern) im Stakeholder- 
Forum und auf der politischen sowie organisatorischen Ebene vorantreiben. Die Go- 
vernance-Struktur des zukünftigen EOSC (s. Abb. 1) wird auf der Grundlage einer 
breiten Vertretung auf allen Ebenen, von einzelnen Wissenschaftlern und Wissen- 
schaftlerinnen bis hin zu Förderstellen sowie politischen Entscheidungsträgerinnen 
und Entscheidungsträgern erstellt. Bis zur endgültigen Einrichtung der EOSC und 


50 S. https://www.bmwi.de/Redaktion/DE/Publikationen/Digitale-Welt/das-projekt-gaia-x.html. 
51 S. https://www.data-infrastructure.eu/GAIAX/Redaktion/EN/Downloads/gaia-press-release- 
september-15th-de.pdf?__blob=publicationFile&v=2. 
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53 S. https://op.europa.eu/s/nFxZ und Abschnitt 1. 
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der Bildung einer juristischen Person unterstützt und ermöglicht das Projekt EOSC- 
secretariat.eu™ die Zusammenarbeit und den Informationsaustausch aller Interes- 
sengruppen in Richtung einer „Minimal Viable EOSC“. 

Das EOSC Governance Board (GB) setzt sich aus Vertretern und Vertreterinnen 
der Mitgliedstaaten und der Europäischen Kommission zusammen und bemüht sich 
um eine wirksame Aufsicht der EOSC-Implementierung und Gewährleistung der Ko- 
ordinierung mit den Initiativen der Mitgliedstaaten und der Kommission. Vorsitzen- 
der des GB ist Hans-Josef Linkens vom (BMBF).*° 


Governance Board 
(Mitgliedsländer, assoziierte Länder - 
Europäische Kommission) 


ES ES 


Executive Board 


(Vertreter der Interessengruppen) A we | we 


(Working Groups) 
Beratung 


EOSC Secretariat.eu 


Plenum der Interessengruppen 
(breite Vertretung der Interessengruppen) 


Abb. 1: Governance-Struktur des zukiinftigen EOSC. 


Im EOSC Executive Board (EB),’ eingerichtet von der Europäische Kommission,” 

tragen Vertreter der EOSC-Stakeholder dazu bei, die ordnungsgemäße Umsetzung 

und Rechenschaftspflicht der EOSC sicherzustellen. Mitglieder des EB leiten ver- 

schiedene themenorientierte „Working Groups“.°® Aus Deutschland sind vom BMBF 

für die Working Groups benannt: 

- Landscaping (Erstellung einer Landkarte von Dateninfrastrukturen in Europa) — 
Achim Streit, KIT 
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55 S. https://www.eoscsecretariat.eu/eosc-governance/eosc-governance-board. 
56 S. https://www.eoscsecretariat.eu/eosc-governance/eosc-executive-board. 
57 Vgl. European Commission 2018c. 

58 S. https://www.eoscsecretariat.eu/eosc-working-groups. 


42 —— Achim Streit und Jos van Wezel 


— FAIR (Implementierung der FAIR-Prinzipien”’ für Daten) - Oya Beyan, Fraunho- 
fer-Institut für Angewandte Informationstechnik (FhG FIT) 

— Architecture (Definition des technischen Rahmens, der erforderlich ist, um ei- 
nen Verbund von Systemen zu ermöglichen und aufrechtzuerhalten) - Raphael 
Ritz, Max Planck Computing and Data Facility (MPCDF) 

— Rules of Participation (Entwicklung der EOSC Teilnahmebedingungen, in denen 
die Rechte und Pflichten fiir Transaktionen zwischen Nutzern, Anbietern und 
Betreibern festgelegt werden.) - Wolfram Horstmann, Niedersächsische Staats- 
und Universitätsbibliothek Göttingen (SUB) 

- Sustainability (Empfehlungen zur Umsetzung eines operativen, skalierbaren und 
nachhaltigen EOSC-Verbandes ab Anfang der EOSC) - Klaus Tochtermann, ZBW. 


Weitere Informationen zum EB, seinem Arbeitsplan und dem Working Groups findet 
man auf den oben genannten Webseiten von EOSCsecretariat.eu. 

Schließlich soll das EOSC Stakeholder-Forum® Beiträge von zahlreichen Akteuren 
aus der Forschung, von Anbietern von IT-Ressourcen und von Öffentlichen Organisa- 
tionen einbringen. Die Interessengruppen sind dabei nicht nur wissenschaftliche For- 
schungseinrichtungen, Forschungs- und E-Infrastrukturen wie z.B. EGI,°! EUDAT,* 
GEANT® und PRACE,™ sondern auch deutsche” und andere nationale Initiativen, 
Sponsoren, Forschungseinrichtungen und Universitäten sowie vor allem politische 
Entscheidungsträger der Europäischen Kommission und aus den Mitgliedstaaten. 

Eine gewisse Überschneidung zwischen Mitgliedern des GB, EB und dem Stake- 
holder-Forum verbessert den Informationsaustausch. Alle Stakeholder und Mitglie- 
der des EB treffen sich regelmäßig in Workshops, Konferenzen und dedizierten Tref- 
fen zur integrativen Zusammenarbeit mit den Projekten.‘ 


2.2 Beiträge zu den Implementierungsprojekten 


Vor der Implementierung der EOSC arbeiteten bereits mehrere Projekte mit deut- 
scher Beteiligung an Komponenten eines Rahmenwerkes für (verteilte) IT-Dienste. 
Aufbauend auf den Entwicklungen im Remote-Computing und Grid-Computing, das 
insbesondere durch die Teilchenphysik-Experimente am CERN vorangetrieben wur- 
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de, konnten Rechen-Dienstleistungen nun überall in beliebigen Rechenzentren 
nach Wahl erbracht werden. Dieses Prinzip war bald auch als Cloud Computing 
kommerziell ein großer Erfolg. Das Cloud Computing ermöglicht eine einfache Be- 
nutzung von IT-Diensten sowie einen effizienten Einsatz von Ressourcen. Gleichzei- 
tig mit der Entwicklung der Cloud sind Datenspeicherung und Datenverarbeitung 
aufgrund des technischen Fortschritts erschwinglicher geworden und die Daten, die 
aus der Forschung hervorgingen, nahmen ebenfalls durch den technischen Fort- 
schritt in der Folge rasch an Volumen zu, wurden länger als je zuvor digital gespei- 
chert und wurden Gegenstand eigener Entdeckungen.” 

Als direktes Ergebnis lieferte,°® aber auch‘ die ersten Anforderungen an eine 
kollaborative Dateninfrastruktur, aus der das Konzept des europäischen EUDAT 
Projektes hervorging.’ Nach der Entwicklung einer Reihe allgemeiner standardi- 
sierter Daten-Verwaltungstools und unterstützender Software in EUDAT bestand 
das Ziel des EUDAT2020 Nachfolgeprojekts darin, diese Tools in eine nachhaltige 
Infrastruktur einzubetten. Zu den langjährigen deutschen Partnern der beiden EU- 
DAT-Projekte, an denen auch viele Wissenschaftscommunities beteiligt waren, 
gehörten aus Deutschland das FZJ, das KIT, das DKRZ und die MPCDF. Die Bemü- 
hungen kulminierten im Jahr 2016 in der Errichtung der EUDAT CDI, einer pan-euro- 
päischen E-Infrastruktur zur Unterstützung der Forschung mit integrierten Daten- 
diensten und Ressourcen. Die deutschen Teilnehmer in der EUDAT CDI sind die 
gleichen wie in den EUDAT-Projekten und inzwischen auch die Gesellschaft für wis- 
senschaftliche Datenverarbeitung mbH Göttingen (GWDG). 

Weitere technische Bausteine für die Entwicklung der EOSC sind in den Projek- 
ten INDIGO DataCloud,” Authentication and Authorisation for Research and Colla- 
boration (AARC) und AARC?” sowie DEEP-Hybrid-DataCloud’? unter Beteiligung 
deutscher Partner umgesetzt. In dem INDIGO DataCloud Projekt, das sich auf tech- 
nische Verbesserungen des Cloud-Computing bei der Anwendung in der Forschung 
konzentrierte sind von DESY die Schnittstellen der dCache Software” ergänzt wor- 
den und am KIT wurde WaTTS,” eine Token Translation Service Software entwi- 
ckelt. WaTTS ermöglicht damit die Anmeldung an Grid-Diensten durch das Erzeu- 
gen von kurzlebigen Nutzerzertifikaten (im X.509-Format) durch Annahme von un- 
terschiedliche Sicherheitssignaturen. Ein authentifizierter Zustand wird von WaTTS 
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sozusagen in einen anderen übersetzt, was die Integration verschiedener Dienste 
mit unterschiedlicher Authentifizierung ermöglicht. 

Eine offene Dateninfrastruktur ermöglicht einen ungehinderten Zugriff auf 
Dienste und Daten, unabhängig von den verschiedenen verwendeten Authentifizie- 
rungssystemen. Insbesondere der Zusammenschluss, die „Föderation“, bestehender 
unabhängiger Authentifizierungsdomänen ist wichtig für den transparenten und 
grenziiberschreitenden Datenzugriff und -austausch, wie er in der EOSC vorgesehen 
ist. Die Technologie für diesen transparenten Zugriff wurde in den Projekten AARC 
und AARC2 (2015-2019) entworfen. Die Entwicklung des Authentifizierungsmanage- 
ments, der dazugehörigen Richtlinien, das Security Framework sowie die Integrati- 
on von Tools für das Gruppenmanagement und die Entwicklung von Authentifizie- 
rungs-Proxys wurden vom KIT gemeinsam mit dem FZJ durchgeführt. Eines der 
wichtigsten Ergebnisse des Projekts war die AARC Blueprint Architecture (BPA),’® 
eine Referenzarchitektur samt Software-Bausteinen für den föderierten Zugang zu 
IT Services. Weitere deutsche Mitwirkende waren das Deutsche Forschungsnetz 
(DFN), EMBL in Heidelberg und die DAASI international GmbH in Tübingen. 

Das DEEP-Hybrid-DataCloud-Projekt bietet eine Plattform für die einfache Ent- 
wicklung, Erstellung, gemeinsame Nutzung und Bereitstellung von Softwaremodu- 
len, die in der wissenschaftlichen Forschung auf verteilten E-Infrastrukturen, d.h. 
„Clouds“, verwendet werden. Es werden auch Beispiele für einsatzbereite Module 
vorgestellt, die in Zusammenarbeit mit und für verschiedene Forschungsbereiche 
entwickelt wurden. Die Module können lokal oder auf Cloud-Computing-Plattfor- 
men ausgeführt werden, deren Integration in EOSC geplant ist. Deutsche Partner 
sind das KIT und das HMGU. 

Ab 2010 drängten Wissenschaftsorganisationen in Deutschland und weltweit,” 
die Europäische Kommission und die in 2013 gegründete internationale RDA ver- 
stärkt auf einen offenen Austausch und die Wiederverwendung wissenschaftlicher 
Daten. Die RDA leistet einen Beitrag zu Vereinbarungen über globale Standards für 
eine ordnungsgemäße und zuverlässige Datenverwaltung. Ihre Bemühungen sind 
für die technische Umsetzung der FAIR-Dienste im EOSC von großer Bedeutung. 
Ebenfalls unterstützt sie die Einrichtung länderspezifischer Initiativen’® um die 
Übernahme ihrer Ergebnisse voranzutreiben und weitere Datenproduzenten, -be- 
nutzer und -verwalter einzubeziehen. In diesem Zusammenhang ist auch die vom 
KIT geleitete Helmholtz-Initiative Large Scale Data Management and Analysis (LSD- 
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MA) zu nennen,” in der bereits ab 2012 die Entwicklung von Technologien zum 
standardisierten Datenmanagement im wissenschaftlichen Kontext in Zusammenar- 
beit mit verschiedenen Wissenschaftsdisziplinen vorangetrieben wurde. 

Das EOSCpilot-Projekt® erhielt den Auftrag, weitere inhaltliche Details eines 
zukünftigen EOSC zu entwickeln und den technischen Stand der vorhandenen In- 
frastruktur durch die Implementierung mehrerer realer Fallbeispiele aus der wissen- 
schaftlichen Praxis zu ermitteln. Die Implementierungsbemühungen wurden durch 
zusätzliche Bereiche ergänzt, die für einen Verbund von Diensten in Europa von Be- 
deutung sind: Governance, Interoperabilität von Diensten, Dienstarchitekturen und 
die Verbesserung der Fähigkeiten und Kompetenzen von Forschern bei der Nutzung 
srenzüberschreitender und gemeinschaftsübergreifender Dienste und Daten. Letzte- 
res konzentrierte sich auf die Bereitstellung von Fachwissen und der Entwicklung 
von Data-Stewardship Fähigkeiten. Mit FAIR4S®! erstellte das KIT ein Rahmenwerk 
für die Entwicklung von FAIR Data-Stewardship für Forschungsdaten und gab Emp- 
fehlungen zum FAIR Training. 

Alle diese dargestellten Anstrengungen, die sich auf die Interoperabilität, den 
Zusammenschluss von IT-Infrastrukturen, die Verknüpfung horizontaler und the- 
matischer Datendienste, integrierte wissenschaftliche Arbeitsabläufe und interope- 
rable Datenstandards konzentrierten, ebneten den Weg für die Schaffung einer inte- 
grierten europäischen Forschungsdatenlandschaft. Die EOSC sollte somit eine 
Föderation bestehender und geplanter Forschungsdateninfrastrukturen sein und 
eine Soft-Overlay-Funktion hinzufügen, um diese als „eine“ nahtlose europäische 
Forschungsdateninfrastruktur zu betreiben. In dieser Konstellation begannen 2018 
die im Rahmenprogramm Horizon 2020 geplanten EOSC-orientierten Implementie- 
rungsaktivitäten. 

Das größte dieser Implementierungsprojekte ist EOSC-hub.°? Uber einen Ser- 
vicekatalog bietet das EOSC-hub Projekt Zugriff auf das Portfolio an Produkten, Res- 
sourcen und Dienstleistungen, die von (pan-)Jeuropäischen und internationalen Ein- 
richtungen, z.B. Universitäten, bereitgestellt werden. Zudem liefert es Komponen- 
ten für den funktionalen Kern der EOSC, der die zukünftige Beteiligung von weitere 
Forschungs- und E-Infrastrukturen ermöglicht. Zu diesem Zweck liefert das EOSC- 
hub Projekt verschiedene Grundvoraussetzungen. Zwei zentrale dabei sind: 

- Ein Web Portal, in Zusammenarbeit mit den eInfraCentral- (Nachfolge ab 
1.1.2019: EOSC Enhance) und OpenAIRE-Projekten entwickelt, in dem Forsche- 
rinnen und Forscher Informationen finden und Dienste nach ihren Anforderun- 
gen und Möglichkeiten auswählen können. 
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- Ein IT-Service Management System (SMS), das unter anderem Verfahren für das 
Onboarding (die Regulierung der Aufnahme von Diensten in das EOSC Portfo- 
lio), die Überprüfung der Funktionalität sowie Rechnungsstellung und die Be- 
nutzerunterstützung durch Services und Schulungen festlegt. Das SMS gewähr- 
leistet die zuverlässige planbare Erbringung der Leistungen. 


Das KIT bringt seine im Steinbuch Centre for Computing (SCC) gesammelten Fach- 
kenntnisse und Expertisen in Bezug auf die Organisation und das Management von 
IT-Diensten sowie des Portfoliomanagements ein und leistet im Projekt einen we- 
sentlichen Beitrag zum Management von Integrations- und Wartungsablaufe von 
Verbund- und Kooperationsdiensten. Insbesondere ist das SCC an der Strukturie- 
rung und dem Aufbau des EOSC-föderierten IT-Servicemanagements, aufbauend 
auf den in EUDAT entwickelten Werkzeugen für das Management von föderierten 
IT-Service-Umgebungen maßgeblich beteiligt. 

Der EOSC-hub ist über eine Kooperationsvereinbarung eng mit der OpenAIRE-E- 
Infrastruktur®? verbunden und wird zusätzlich das breite Spektrum an wissenschaft- 
lichen Dienstleistungen außerhalb des IT-Bereichs (z. B. Schulung, Datenrepositori- 
en, Umgang und Nutzung von geistigem Eigentum, Lizenzen etc.) einbinden. 


2.3 Kommerzielle Aspekte der EOSC 


Die Entwicklung und Erforschung von Cloud-Technologien ist auch aus wirtschaftli- 
chen‘* und geopolitischen Gründen von Bedeutung für Europa. Auf der einen Seite 
treibt Europa Innovationen voran, wie z.B. EOSC oder auch PRACE,® auf der ande- 
ren Seite besteht der Wunsch nach mehr Souveränität und Unabhängiskeit von An- 
bietern außerhalb Europas (im Cloud-Bereich die bekannten großen Anbieter wie 
z.B. Google, Amazon oder Dropbox). Die wirtschaftliche Komponente ist ein kon- 
stanter und wichtiger Faktor, der auch das Nachhaltigkeitsmodell des EOSC beein- 
flusst. Die Einbeziehung von kommerziellen Anbietern für die Erbringung von 
Dienstleistungen könnte die Benutzerfreundlichkeit von EOSC und seine globale Be- 
deutung potenziell erweitern. 

Ein Hybridmodell, in dem kommerzielle Cloud-Dienstleister und öffentlich fi- 
nanzierte Forschungseinrichtungen zusammengeschlossen sind, wurde im Rahmen 
des Projekts Helix Nebula Science Cloud“ u.a. mit den Partnern DESY und KIT in 
der Rolle als Service-Consumer erprobt und anschließend in den Projekten OCRE®” 
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und ARCHIVER® weiterentwickelt. OCRE realisiert kommerzielle digitale Dienste im 
Rahmen von EOSC, während ARCHIVER darauf abzielt, die Lücke zwischen kom- 
merziellen Angeboten und wissenschaftlichen Anforderungen bei der Langzeitda- 
tenspeicherung zu schließen. 

Es bleibt abzuwarten, ob die Angebote kommerzieller Dienstleister in der EOSC 
kompetitiv sowie für die Anbieter lukrativ sind und somit insgesamt eine Rolle spie- 
len werden oder nicht. 


2.4 Beiträge aus den Wissenschaftsdisziplinen 


Auf Basis der in Kap. 1.1 dargestellten Informationen zu EOSC-Initiativen in Europa 
mit deutscher Beteiligung wird im Folgenden der Versuch unternommen, die Beiträ- 
ge aus den Wissenschaftsdisziplinen in die DFG Fachsystematik°®” einzusortieren. 
Die Einsortierung erfolgt ohne Gewähr; eine tiefere Einsortierung in die Fachkolle- 
gien wird bewusst nicht durchgeführt. 

Im Wissenschaftsbereich 1, den Geistes- und Sozialwissenschaften, ist die Initia- 
tive SSHOC zu nennen. 

Im Wissenschaftsbereich 2, den Lebenswissenschaften, ist in der Biologie, und 
Medizin die Initiative EOSC-Life zu nennen. Jedoch lassen sich auch die Aspekte der 
Biodiversität in ENVRI-FAIR ebenfalls zu diesem Wissenschaftsbereich zählen. 

Im Wissenschaftsbereich 3, den Naturwissenschaften, sind mehrere Initiativen 
angesiedelt. Der Physik lassen sich die Initiativen ExPaNDS, PaNOSC und ESCAPE zu- 
ordnen. Den Geowissenschaften lassen sich EOSC-Pillar und ENVRI-FAIR zuordnen. 

Im Wissenschaftsbereich 4, den Ingenieurwissenschaften, ist in der Materialwis- 
senschaft und Werkstofftechnik ebenfalls die EOSC-Pillar Initiative einzusortieren. 

Allen Projekten ist gemein, dass in den Themengebieten (Etablierung von FAIR- 
Prinzipien, Metadaten, Verbreitung von bewährten Vorgehensweisen, Aufbau von 
Infrastrukturen zum verteilten Datenmanagement sowie Entwicklung von Diensten 
und Richtlinien) prinzipielle Beiträge aus vielen Fachkollegien erfolgen. Dies gilt 
für die Informatik und Literaturwissenschaften in Form der beteiligten Rechenzen- 
tren und Bibliotheken. 

Eine abschließende Gesamtbetrachtung zeigt, dass der Wissenschaftsbereich 
der Naturwissenschaften sehr stark vertreten ist, darin jedoch die Mathematik und 
Chemie gänzlich fehlen. Eine Begründung kann darin liegen, dass die Fachgebiete 
Physik und Geowissenschaften traditionell z.B. im Rahmen europäischer und inter- 
nationaler Experimente, Initiativen und ESFRI Infrastrukturen über die Grenzen 
Deutschlands hinaus zusammenarbeiten. Ähnliches gilt auch für die Lebenswissen- 
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schaften, insbesondere Biologie und Medizin; die Agrar- und Forstwissenschaften 
sowie die Tiermedizin fehlen ebenfalls ganzlich. Auch die Geistes- und Sozialwis- 
senschaften sind durchweg sehr gut vertreten. In den Ingenieurwissenschaften gibt 
es vereinzelte Teilnahmen aus einigen Fachgebieten, vor allem im Bereich der infor- 
matiknahen Themen. Sowohl in der Breite als auch in der Tiefe sind die klassischen 
Ingenieursdisziplinen wie Maschinenbau, Verfahrenstechnik, Bauwesen und Elek- 
trotechnik größtenteils nur gering vertreten, da hier einerseits keine ESFRI-Infra- 
strukturen vorhanden sind (gleiches gilt auch für die Mathematik und Chemie) und 
andererseits sehr viele Industriekooperationen mit zugehörigen Herausforderung 
zum Thema geistiges Eigentum/IPR existieren. 


3 Praxistransfer 


Wie zuvor ausgeführt existiert eine Basis, so dass sich alle wissenschaftlichen Diszi- 
plinen aktiv in EOSC engagieren und an den neu angebotenen Zugängen zu Daten 
und Diensten teilnehmen können. Die Teilnahme kann in beide Richtungen erfol- 
gen: Einerseits können angebotene Dienste ausgewählt und dann verwendet wer- 
den. Andererseits können eigene Forschungsergebnisse und Dienste für alle For- 
schenden verfügbar gemacht werden, indem diese in die EOSC eingebracht, bzw. 
über eine der regionalen oder länderspezifischen Infrastrukturen mit der EOSC ver- 
bunden werden. 

Angebote wie das EOSC-Portal bieten Kataloge für Dienstleistungen und Schu- 
lungen, Kontaktstellen und umfassende Informationen, wie jede bzw. jeder einen 
Beitrag leisten und die Reichweite der Zusammenarbeit erhöhen kann. Andererseits 
widmen viele Projekte einen Teil ihrer Arbeit und Projektressourcen der Einarbeitung 
von Forschenden und ihrem wissenschaftlichen Umfeld in die EOSC und bieten tech- 
nische und organisatorische Unterstützung für Pilot- und Anwendungsfälle. EOSCse- 
cretariat.eu bietet Möglichkeiten zur Finanzierung von sog. „Co-Creation-Ideen“, die 
die Zusammenarbeit zwischen denen, die die EOSC-Dienste anbieten, und denen, die 
sie nutzen, stärken oder initiieren. Beispiele für finanzierte Aktivitäten sind Work- 
shops, Veröffentlichungen, Vorträge, Studien und mehr. Informationen und ein An- 
tragsformular sind auf der Website von EOSCsecretariat.eu zu finden. 

Darüber hinaus sind auf der Webseite des EOSC-Portals weiterführende Infor- 
mationen zu finden, z.B. über zukünftige Ausschreibungen, Beteiligungsmöglich- 
keiten für Ressourcen- und Dienstanbieter?' sowie Best Practice Beispiele.” 
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Diese Möglichkeiten können genutzt werden, um den Prozess in Gang zu 
setzen, Hürden und Anfangsschwierigkeiten abzubauen sowie die technischen Vor- 
aussetzungen für den Beitritt zur EOSC-Infrastruktur zu schaffen oder um einen bes- 
seren Einblick in die Suche, den Zugriff und die Verwendung von Forschungspro- 
dukten aus Repositorien auf der ganzen Welt zu erhalten. Open Science gedeiht 
durch Austausch und Zusammenarbeit und durch die Einbeziehung der FAIR-Prin- 
zipien in die Forschung in jeder Hinsicht. Auf diese Weise kann die Vision der EOSC 
und seiner transparenten Datenkonnektivität Wirklichkeit werden. 


Fazit 


Der Aufbau und die Etablierung der European Open Science Cloud ist eine der größ- 
ten Initiativen und zugleich Herausforderung auf Europäischer Ebene hin zu „Open 
Science — Open Innovation - Open to the world“??, wie es Ex-Forschungskommissar 
Carlos Moedas im Rahmen der strategischen Prioritäten seiner politischen Agenda 
in Juni 2015 bereits gesagt hat. EU Präsidentin Ursula von der Leyen fügte in Davos 
beim World Economic Forum hinzu dass die Schaffung der European Open Science 
Cloud im Gange sei und dass dies ein „vertrauenswürdiger Ort für Forscher sein 
würde, um ihre Daten zu speichern und auf Daten aus anderen Disziplinen zuzu- 
greifen“.”* Entsprechend umfangreich und vielfältig sind die Ausschreibungen und 
Initiativen, die es rund um die EOSC inzwischen gibt. Im Beitrag wurde der Versuch 
unternommen, eine möglichst umfassende Sicht auf die Beiträge aus Deutschland 
zur EOSC zum Zeitpunkt Ende 2019 zu geben — ohne jedoch einen Anspruch auf 
Vollständigkeit zu stellen. Die Aktivitäten zur Zukunft des High Performance Com- 
puting (HPC) in Europa sowie die kommerziellen Aspekte von EOSC- und Cloud- 
Technologien wurden bewusst kurz dargestellt. 

Spannend und herausfordernd zugleich wird es auch mit den anstehenden und 
geplanten Ausschreibungen zur weiteren Etablierung der EOSC weitergehen. Vor al- 
lem zu nennen sind hier die EU-Ausschreibungen INFRAEOSC-03 und INFRAEOSC- 
07,” von denen im September 2020 bekannt wurde, dass die folgenden EOSC-Pro- 
jekte mit deutscher Beteiligung voraussichtlich ab 2021 anfangen: EOSC-Future 
(KIT, die Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), die Georg-Au- 
gust-Universität Göttingen, das EMBL in Heidelberg und DESY), DICE (KIT, FZJ, MP- 
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CDF, DKRZ, GWDG). Weitere Informationen waren zum Zeitpunkt des Redaktions- 
schlusses noch nicht bekannt. Auf deutscher Ebene wird in den nächsten Jahren 
eine (vielleicht ist sie bisher die größte) Herausforderung darin bestehen, die föde- 
ralen und regionalen Infrastrukturen (z.B. NFDI) und Richtlinien mit den europäi- 
schen Äquivalenten wie z.B. der EOSC auszurichten. 

Die Ergebnisse der EOSC Working Groups” und insbesondere die Ergebnisse 
der Sustainability Working Group werden für die Verwirklichung eines nachhalti- 
gen und langfristig finanzierten EOSC von größter Bedeutung sein. Die Umsetzung 
länderspezifischer Vorschriften und der Kompromiss zwischen EU-finanzierten und 
von den Mitgliedstaaten finanzierten Beitragsmodellen der EOSC nach 2020 werden 
auf diesen basieren. Die Gründung der EOSC als Rechtsperson in Form einer belgi- 
schen AISBL erfolgte in September 2020. Bis zur ersten Generalversammlung waren 
bereits 14 deutsche Organisationen der EOSC Association beigetreten. Eine Task 
Force der Sustainability Working Group entwirft die Regelungen der vorgesehenen 
„Strategic Partnership“ - in Übereinstimmung mit den Konditionen und Prinzipien 
im neuen EU-Rahmenprogramm für Forschung und Innovation: „Horizont Europa“. 
Ebenso erarbeitet eine Task Force der Architecture Working Group eine Strategic Re- 
search and Innovation Agenda (SRIA) für die EOSC nach 2020. 

Weitere größere Herausforderungen bestehen zudem noch in der Entwicklung 
eines tragfähigen und dauerhaften Finanzierungsmodells sowie in der notwendigen 
Unterfütterung der EOSC mit den notwendigen Hardware-Ressourcen. Denn auch 
Dienste in der Cloud benötigen physikalische Hardware, um Funktionalität und Da- 
ten Nutzerinnen und Nutzer zur Verfügung zu stellen. Und wie so häufig bei großen 
und langfristigen Initiativen sollte man bereits am Anfang auch an ein mögliches 
Ende denken - wie können langfristig die deutschen Mitgliedsbeiträge für eine 
EOSC-Organisation aufgebracht werden? 
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Markus Putnings 


1.3 Förderpolitische Maßgaben 


Abstract: Im Beitrag werden die förderpolitischen Maßgaben, insbesondere die ver- 
bindlichen Impulse näher beleuchtet. Dies umfasst zunächst eine Darstellung der 
Bedeutung der Förderer in Deutschland und auf internationaler Ebene; mit entspre- 
chenden, im Beitrag tabellarisch dargestellten Policies und Maßgaben wird ein 
gewisses Framework für Best Practices und Normbildung im Bereich Forschungsda- 
tenmanagement (FDM) gebildet. Abschließend wird auf aktuelle Probleme und Hin- 
dernisse bei der Implementierung der Maßgaben sowie entsprechende Empfehlun- 
gen an die Förderer eingegangen. 


Einleitung 


Aktuell verstärken die Förderer im DACH-Raum! die Verbindlichkeit und das Moni- 
toring ihrer Open-Science-Policies und orientieren sich damit an Entwicklungen auf 
internationaler Ebene. Im Folgenden wird entsprechend zunächst die Bedeutung 
der Förderer hierzulande beleuchtet und dann der aktuelle Stand der Maßgaben 
ausgewählter Förderer dargelegt. Letzteres geschieht in Form von strukturierten ta- 
bellarischen Darstellungen der jeweiligen Policies. Diese gehen inhaltlich über die 
Informationen von z.B. Sherpa/Juliet? hinaus und werden den Bedeutungen der 
Maßgaben, v.a. auch für die Antragstellung und für die entsprechend nötige Vorab- 
information in der Praxis hoffentlich gerechter.” 

Mit Förderer sind im nachfolgenden Kontext stets internationale bzw. EU-weite 
(z.B. European Commission — EC, European Research Council - ERC), zentrale na- 
tionale und Selbstverwaltungseinrichtungen (z.B. Deutsche Forschungsgemein- 
schaft - DFG, Fonds zur Förderung der wissenschaftlichen Forschung — FWF, 
Schweizerischer Nationalfonds - SNF) sowie private Einrichtungen (z.B. Volkswa- 
genStiftung) zur Förderung der Wissenschaft und Forschung samt entsprechenden 
Förderprogrammen gemeint; im Gegensatz etwa zu institutionellen Maßgaben von 


1 Akronym für Deutschland, Österreich und die Schweiz. 

2 S. https://v2.sherpa.ac.uk/juliet/. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
3 Der Beitrag und die entsprechenden tabellarischen Darstellungen liegen hier in gekürzter Form 
vor. Im entsprechenden Datenpaket zum Praxishandbuch Forschungsdatenmanagement auf RA- 
DAR ist die erweiterte Fassung u.a. mit der strukturierten Darstellung der Policies auch der Volks- 
wagenStiftung, des National Institutes of Health (NIH), der National Science Foundation (NSF) und 
des Wellcome Trusts zu finden: doi:10.22000/289. 


3 Open Access. © 2021 Markus Putnings, publiziert von De Gruyter. JMA] Dieses Werk ist lizenziert unter 
der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-004 
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z.B. Hochschulen aber auch von Zusammenschliissen von Forschungseinrichtun- 
gen und -zentren (z.B. Leibniz-Gemeinschaft) für die jeweiligen Angehörigen. 


1 Bedeutung der Förderer 


Die Bedeutung im Sinne einer Wirkung der Maßgaben der Förderer in Deutschland 
ist quantitativ schwer zu beziffern. Es mangelt derzeit zum einen an systematischen 
Messsystemen für die Erfassung der zugänglich gemachten projektbezogenen For- 
schungsdaten‘ und zum anderen waren die Empfehlungen der deutschen Förderer 
lange Zeit ohne größere Impulswirkung: 

Das Bundesministerium für Bildung und Forschung (BMBF) hat beispielsweise 
eine Informationsseite über Open Data; jedoch keine zentralen oder harmonisierten 
Maßgaben (z.B. keine Policy) für seine Förderprogramme und Förderrichtlinien. 
Von den großen deutschen Stiftungen® mit wissenschaftlichen Förderprogrammen 
formuliert zum Zeitpunkt der Beitragserstellung nur die VolkswagenStiftung Forde- 
rungen und Empfehlungen hinsichtlich Open Data.’ 

Die DFG hat zwar bereits 1998 Empfehlungen im Rahmen der Denkschrift „Si- 
cherung guter wissenschaftlicher Praxis“ aufgestellt? und diese 2009 in den „Emp- 
fehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungs- 
primärdaten“? sowie 2015 in den „Leitlinien zum Umgang mit Forschungsdaten“!® 
konkretisiert, jedoch stets mit unverbindlichem Charakter (d. h. mit „soll“-Formulie- 
rungen, so „sollten Forschungsdaten so zeitnah wie möglich verfügbar gemacht 
werden“!'), Das hat sich erst mit dem neuen DFG-Kodex „Leitlinien zur Sicherung 
guter wissenschaftlicher Praxis“ geändert, der mit Inkrafttreten zum 01. August 
2019 von allen Hochschulen und außerhochschulischen Forschungseinrichtungen 
rechtsverbindlich umzusetzen ist, um weitere Fördermittel der DFG erhalten zu kön- 
nen.” 


4 Vgl. Kriesberg et al. 2017, 10. 

5 Vgl. Bundesministerium für Bildung und Forschung 2018. 

6 Gemäß Bundesverband Deutscher Stiftungen 2019, gemessen am Eigenkapitel in Mio. Euro. Ge- 
prüft wurde über eine Recherche auf den jeweiligen Webseiten der Stiftungen nach „Open Data“ 
und „Forschungsdatenmanagement“. 

7 Vgl. VolkswagenStiftung 2018. 

8 Vgl. Deutsche Forschungsgemeinschaft 2013 für die aktuellste Fassung. 

9 Vgl. Deutsche Forschungsgemeinschaft 2009. 

10 Vgl. Deutsche Forschungsgemeinschaft 2015. 

11 Deutsche Forschungsgemeinschaft 2015, 1. 

12 Deutsche Forschungsgemeinschaft 2019, 27. Für Einrichtungen, die bereits die DFG-Regelungen 
zur „Sicherung guter wissenschaftlicher Praxis“ rechtsverbindlich umgesetzt haben, besteht eine 
zweijährige Übergangsfrist für die Umsetzung der Leitlinien des Kodex, siehe ebd. 
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Insbesondere solche verbindliche Maßgaben der Förderer sind allerdings gemäß 
der Fachliteratur kritisch bei der Etablierung und Durchsetzung eines im Rahmen 
der guten wissenschaftlichen Praxis angemessenen Forschungsdatenmanagements 
(FDM) und der Öffnung der Forschungsdaten für Dritte. Sie bilden ein Framework 
für Best Practices, Normbildung und schaffen aufgrund des Fachdialogs mit der For- 
schungscommunity, durch die supportiven Maßnahmen der Förderer und aufgrund 
eines drohenden Verlusts an Drittmitteln das nötige Bewusstsein. Sie regen damit 
konsekutiv institutionelle Policies, d.h. Maßgaben und Maßnahmen an.” Freiwilli- 
ge Empfehlungen fruchten dagegen offenbar wenig bzw. gehen mit einer niedrige- 
ren Compliance-Rate zu den Maßgaben der Förderer einher. 

Mehrere Quellen heben zudem die Bedeutung eines Monitorings der Förderer 
anhand der gesetzten Ziele und wirksamer Sanktionen bei Noncompliance zu den 
Maßgaben hervor, insbesondere um herauszufinden, wie viele derjenigen, die För- 
dermittel empfangen, die Maßgaben einhalten, wie viele nicht und weshalb nicht. 
Konkret etwa, ob eine bessere oder verständlichere Kommunikation der Maßgaben, 
der Vorteile (z.B. Datenzitationen, Mittel zur Kostendeckung) oder der Beratungs- 
und Unterstützungsangebote bzw. deren Ausbau nötig ist bzw. ob strengere Sank- 
tionen oder eine Anpassung der Policy vonnöten wäre. Oder auch, ob die bisherigen 
Monitoringmaßnahmen schlicht unzulänglich waren und die Entwicklung spezieller 
Infrastrukturen oder Tools nötig wäre, um die Einhaltung der Maßgaben im ge- 
wünschten Maße monitoren zu können.” 


2 Wechselbeziehungen und Wirkungen der Maß- 
gaben und Policies 


Die Policies und Maßgaben der Förderer sind nicht gesondert und statisch zu be- 
trachten, vielmehr gibt es umfangreiche Wechselbeziehungen zwischen den Stake- 
holdern. In Abb. 1 werden diese vereinfacht dargestellt. 

Übergeordnete Maßgaben, wie etwa Gesetze der Bundesregierung und der Län- 
der sowie Vorgaben von Bündnissen (EU, OECD, G7 bzw. vormals G8) wirken zu- 
nächst am stärksten. 


13 Vgl. z.B. Albornoz et al. 2018, 10; Jones 2012a, 117, 120-121; Lasthiotakis, Kretz, Andrew und Sa 
2015, 969, 980, 983; Shearer 2015, 43; Tsoukala et al. 2016, 12. 

14 Vgl. z.B. Lariviere und Sugimoto 2018, 485; Kriesberg et al. 2017, 3. 

15 Vgl. Neylon 2017, 18; Shearer 2015, 25, 39; Tananbaum 2016, 5; Tsoukala et al. 2016, 12, 28. 
Zusätzlich lassen sich die Schlussfolgerungen der folgenden Quellen aus dem Open-Access-Kontext 
gleichermaßen übertragen bzw. anwenden: Kipphut-Smith et al. 2018, 12; Lariviere und Sugimoto 
2018, 486; Picarra 2015, 2. 
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OECD, G7/G8, Open Data Charter, EU, Regierungen 


FDM-Maßgaben / „Policies“: 
Fachspezifische Förder Allgemeine)Forderer 


Wissenschaftseinrichtungen 
Open Government: (Bundes-)Verwaltung 
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Infrastruktur- 4 Es 
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Abb. 1: Vereinfachte Darstellung der Wechselbeziehungen. 

1 Mit Gemeinschaften sind Forschungsgemeinschaften wie z.B. die Helmholtz-Gemeinschaft Deut- 
scher Forschungszentren oder die Leibniz-Gemeinschaft gemeint. 

? Hier sind äquivalent Forschungsgesellschaften wie die z. B. Fraunhofer-Gesellschaft gemeint. 


Die Fachliteratur betont z. B. insbesondere die Maßgaben der OECD Declaration on 
Access to Research Data from Public Funding’ und späteren OECD Principles and 
Guidelines for Access to Research Data from Public Funding,” der G8 Open Data 
Charter! und International Open Data Charter’? sowie des Open Data Research Data 
Pilots im Horizon 2020 Rahmenprogramm der Europäischen Union (EU) für For- 
schung und Innovation als impulssetzend für eine konsekutive Erstellung oder Har- 
monisierung von Policies a) bei Förderern und b) in der Folge wiederum bei den 
von Fördermittel abhängigen Einrichtungen sowie wissenschaftlichen Gemeinschaf- 
ten und Gesellschaften. Die verschiedenen Policies wirken sich c) wiederum auf de- 
ren Angehörige und Infrastruktur- sowie Verwaltungseinrichtungen (z.B. Drittmit- 
telberatung) im Alltag aus; zudem sind d) auch weitere wissenschaftliche Stakehol- 
der wie z.B. Verlage betroffen.”° 


16 Vgl. OECD 2004. 

17 Vgl. OECD 2007. 

18 Vgl. G8-Staaten 2013. 

19 Vgl. Open Data Charter 2015. 

20 Vgl. Bundesministerium des Innern, für Bau und Heimat 2014, 4-5; Jones 2012a, 114-115, 121- 
123; Lasthiotakis, Kretz, Andrew und Sä 2015, 969; Pampel und Bertelmann 2011, 50-52, 54-55; 
Tsoukala et al. 2016, 11. 
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Wie in Abschnitt 1 erwähnt, können zudem nationale Förderer wie die DFG eine 
rechtsverbindliche Umsetzung ihrer Maßgaben einfordern, was eine Adaption vieler 
institutioneller Policies nach sich ziehen wird. Zudem sollten die Policies auch stets 
in den Fachcommunities Bewusstsein finden und verankert werden.”! 

In umgekehrter Richtung zielen jedoch auch Fachcommunities und fachliche 
sowie bibliotheks- und informationswissenschaftliche Allianzen und Verbünde auf 
eine Wirkung bei den Förderern und der Regierung, bspw. hinsichtlich einer besse- 
ren Ressourcenausstattung.” Gleiches gilt für die Einrichtungen selbst, da die Im- 
plementierung bzw. Anpassung institutioneller Policies mit Investments in Infra- 
struktur, Dienstleistungen und Personal einhergeht.” 

Auch Verlage und Herausgebervereinigungen”* versuchen, mit ihren Policy- 
Frameworks weitere Stakeholder, darunter auch Förderer, zu adressieren und zu be- 
einflussen; hier ein Beispiel von SpringerNature: 


To potentially enable standardisation and harmonisation of data policy across funders, institu- 
tions, repositories, societies and other publishers the [Springer research data] policy frame- 
work was made available [...] for reuse by other organisations.” 


Der Wirkungspfeil in Abb. 1 ist deshalb als beinahe geschlossener Kreis dargestellt. 
In diesem Kontext seien auch „interagency agreements“ empfohlen; einige Förderer 
(z. B. NIH) haben hierzu entsprechende Empfehlungen, dass z.B. im Antrag auf pro- 
blematische, widersprüchliche oder abweichende Regelungen verschiedener ande- 
rer Stakeholder hingewiesen werden soll.” 

Nicht inkludiert sind in Abb. 1 die Wechselwirkungen zwischen weiteren Polici- 
es. So bauen Forschungsdaten-Policies teil auf Policies zur guten wissenschaftli- 
chen Praxis, auf Intellectual Property- oder Open Access-Policies (IP- oder OA-Poli- 
cies) auf. Auch etwaige Rechtsgrundlagen und -beziehungen, etwa zum Bundesda- 
tenschutzgesetz, Urheberrechtsgesetz, Informationsfreiheitsgesetz und E- 
Government-Gesetz müssen bei der Erstellung, Änderung bzw. Adaption von Polici- 
es berücksichtigt werden.” 


21 Vgl. Jones 2012a, 123-24; Deutsche Forschungsgemeinschaft 2015, 2; Deutsche Forschungsge- 
meinschaft 2019, 8. 

22 Vgl. Deutscher Bibliotheksverband e. V. 2018, 8, 16; Pampel und Bertelmann 2011, 53. 

23 Vgl. Jones 2012a, 121-122; Lasthiotakis, Kretz, Andrew und Sä 2015, 969. 

24 Vgl. Kiley et al. 2017, 1990. 

25 Hrynaszkiewicz et al. 2017, 70. 

26 Vgl. Shearer 2015, 27-28. 

27 Vgl. Bundesministerium des Innern, für Bau und Heimat 2014, 5; Bundesministerium des In- 
nern, für Bau und Heimat 2018; Jones 2012b, 48, 57-58; Putnings 2017, 34-37; Sa, Kretz, Andrew 
und Sigurdson 2013, 105-106. 
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3 Strukturierte Kurzdarstellung der Maßgaben 


Im Folgenden werden ausgewählte’ Maßgaben und Policies von wissenschaftli- 
chen Förderern gelistet und strukturiert beschrieben. Sofern fördererseitig kein spe- 
zieller Datenmanagementplan (DMP) oder ein entsprechendes DMP-Tool empfohlen 
wird, kann man sich an der entsprechenden Sammlung von forschungsdaten.org,” 
von forschungsdaten.info” oder den Tipps des FoDaKo-Projekts zur Tool-Auswahl 
orientieren. 


3.1 Förderer des deutschsprachigen Raums 


Tab. 1: Deutsche Forschungsgemeinschaft (DFG) 


Relevante Policy- „Umgang mit Forschungsdaten. DFG-Leitlinien zum Umgang mit Forschungsda- 
Webseiten? ten“ (samt Unterseiten und verlinkten Dokumenten). 
„Gute wissenschaftliche Praxis.“ (samt Unterseiten und verlinkten Dokumenten). 


URLs https://www.dfg.de/foerderung/antrag_gutachter_gremien/antragstellende/ 
nachnutzung_forschungsdaten/index.html 


https://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/gwp/ 


Version/Datum Letzte Aktualisierung: 30.10.2020 
Letzte Aktualisierung: 06.07.2020 


28 Das BMBF wird hier z.B. nicht mit aufgeführt, da es derzeit noch keine zentralen oder harmo- 
nisierten Maßgaben auf- und ausweist. Auf Anfrage beim BMBF wurde in diesem Kontext folgendes 
mitgeteilt bzw. in Aussicht gestellt: „Das BMBF macht als Förderer von Forschungsprojekten in vie- 
len Fachbereichen Vorgaben zum Forschungsdatenmanagement. Dazu zählen insbesondere die [...] 
Bildungsforschung, die Küsten- und Meeresforschung sowie die physikalische Grundlagenfor- 
schung an Großgeräten. Das BMBF ist bestrebt, Vorgaben zum Forschungsdatenmanagement lang- 
fristig auf alle Förderbereiche auszuweiten. Wichtig ist dabei jedoch auch, dass Disziplinen spezi- 
fische Besonderheiten berücksichtigt werden. Darüber hinaus entwickelt sich dieses Feld dyna- 
misch. Daher bitten wir Sie nochmals vor Erscheinen Ihres Buches zu prüfen, ob sich 
Neuerungen ergeben haben.“ Schriftliche E-Mail-Auskunft vom Referat 421 - Forschungsdaten 
des Bundesministeriums für Bildung und Forschung vom Montag 21.10.2019 09:16 Uhr. Auf erneute 
Nachfrage wurde am Montag, 20. April 2020 08:30 Uhr mitgeteilt, dass es noch keinen neuen Sach- 
stand gäbe. Kurz vor Erscheinen des Buches wurde jedoch der neue BMBF-Aktionsplan Forschungs- 
datenmanagement bekannt gegeben, vgl. https://www.bildung-forschung.digital/de/aktionsplan- 
forschungsdaten-3479.html und https://www.bmbf.de/de/aktionsplan-forschungsdaten-12553. 
html. Hier sind im Futur grundsätzlichere Maßgaben im Rahmen von Projektförderungen formuliert. 
29 S. https://www.forschungsdaten.org/index.php/Kategorie:Data_Management. 

30 S. https://www.forschungsdaten.info/praxis-kompakt/tools/. 

31 Vgl. Bergische Universität Wuppertal n.d. 

32 In den folgenden Tabellen wird in dieser Zeile pauschal von „Policy-Webseiten“ gesprochen, 
auch wenn es sich in einigen Fällen streng genommen nicht um Policy-Dokumente, sondern 
(z.B. im Falle der EU Grant Agreements) um rechtliche Vor- bzw. Grundlagen für Projektbewilligun- 
gen handelt. 
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O 
G 


ültigkeit ab/ggf. 
bis 


Die hierunter verlinkten „Leitlinien zum Umgang mit Forschungsdaten“?? gelten 
seit Verabschiedung am 30.09.2015 für alle Antragstellenden. 


Bei der Antragstellung und in den Verwendungsrichtlinien der DFG erfolgt eine 
Verpflichtung auf den hier verlinkten, am 01.08.2019 in Kraft getretenen Kodex 
„Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ und auch auf die 
hierin enthaltenen Maßgaben zum Forschungsdatenmanagement. Er ist außer- 
dem auch auf Ebene der Einrichtungen, konkret von allen Hochschulen und au- 
Berhochschulischen Forschungseinrichtungen rechtsverbindlich umzusetzen, 
um weiterhin Fördermittel durch die DFG erhalten zu können. Für die Einrichtun- 
gen, die bereits die Regelungen der früheren DFG-Denkschrift „Sicherung guter 
wissenschaftlicher Praxis“ rechtsverbindlich umgesetzt haben, besteht eine 
zweijährige Übergangsfrist für die Umsetzung der Leitlinien des Kodex. Die Frist 
beginnt am 01.08.2019 und endet am 31.07.2021. 


Kontakt 


Dr. Katja Hartig, katja.hartig(at)dfg.de, +49 228 885 2359 und Dr. Johannes 
Fournier, johannes.fournier(at)dfg.de, +49 228 885 2418. 


Scope Daten 


Kein einheitlich definierter Scope, Forschungsprimärdaten sollten jeweils diszi- 
plinspezifisch definiert werden (z.B. Granularität, Aggregation). Die Verarbei- 
tungsstufe (Rohdaten oder bereits weiter strukturierte Daten) sollte jedoch eine 
sinnvolle Nach- und Weiternutzung durch Dritte ermöglichen. 


Ausnahmen 


Standards 


Antragstellung 


Sofern nachvollziehbare Gründe dafür existieren, bestimmte Daten nicht bzw. 
nicht zugänglich aufzubewahren, sind die Wissenschaftlerinnen und Wissen- 
schaftler dazu angehalten, dies darzulegen. 

Es sind v. a. rechtliche Interessen, der Schutz persönlicher Daten von Proban- 
den, Patienten und anderen von der Datenerhebung betroffenen Personen so- 
wie weitere Verpflichtungen gegenüber Dritten (bspw. Kooperationspartnern) 
zu beachten. 


Daten, Metadaten FAIR-Prinzipien, bei Metadaten mini- 
malst Dublin Core; Einhaltung diszi- 
plinspezifischer (s. DMP-Inhalte und 
-Fachspezifika) und internationaler 
Standards (insbesondere zur Gewähr- 
leistung der Interkompatibilität). 


DMP-Verpflichtung Nein.?* Antragstellende sollen jedoch 
einschlägige Überlegungen (z. B. wel- 
che Daten entstehen und für Dritte rele- 
vant sein könnten, welche Datentypen, 
Standards, Qualitätssicherungsmaß- 
nahmen und Infrastrukturen bei der 
Aufbewahrung, Bereitstellung und lang- 
fristigen Sicherung der Daten zu be- 
rücksichtigen wären) von Anfang an in 
jedweder Projektplanung und in der An- 
tragstellung bzw. dem dortigen Arbeits- 
plan vorsehen und darlegen. 


33 Vgl. Deutsche Forschungsgemeinschaft 2015. 
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DMP-Template oder -Tools 


Die DFG sieht kein spezielles DMP-Tool 
vor. 


DMP-Inhalte und -Fachspezifika 


Siehe „Leitfaden für die Antragstel- 
lung“ (DFG-Vordruck 54.01, Punkt 2.4) 
sowie die jeweiligen fachlichen Richtli- 
nien („Umgang mit Forschungsdaten. 
DFG-Leitlinien zum Umgang mit For- 
schungsdaten“, dortige „Fachspezifi- 
sche Empfehlungen zum Umgang mit 
Forschungsdaten“) und programm spe- 
zifischen Hinweise zur Begutachtung 
von Anträgen (z.B. im Programm Son- 
derforschungsbereiche). 


Kostendeckungsaspekte im DMP 


Projektspezifische Kosten für die Auf- 
bereitung von Forschungsdaten für eine 
Anschlussnutzung bzw. für deren Über- 
führung in existierende (Archivierungs- 
und Publikations-)Infrastrukturen und 
für eventuelle Gebühren oder Mitglieds- 
beiträge dieser Infrastrukturen?” kön- 
nen mit dem Antrag bei der DFG einge- 
worben werden. Dies inkludiert Perso- 
nalkosten, projektspezifische Hard- 
und Softwarekosten sowie Nutzungsge- 
bühren. 


34 Für bestimmte Fächer (z.B. Biodiversitätsforschung, eher empfehlend auch in den Sozial-, Ver- 
haltens- und Wirtschaftswissenschaften) sowie Fachkollegien (z.B. Fachkollegium 106, z. T. auch in 
Ausschreibungen zum Fachkollegium Erziehungswissenschaft) und Sonderforschungsbereiche 
(SFB) werden jedoch Erwartungen hinsichtlich dem Forschungsdatenmanagement bzw. Pläne hier- 
zu formuliert sowie präzisiert, s.a. DMP-Inhalte und -Fachspezifika. Die Orientierung daran sei für 


eine erfolgreiche Antragstellung dringend zu empfehlen. 


35 Etwaige interne Kosten von bereits lokal vorhandenen, z.B. von der Universitätsbibliothek be- 
triebenen Forschungsdatenrepositorien würden jedoch i.d.R. als Eigenleistung gelten. 


DMP-Review 
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Die Relevanz für die Begutachtung und 
Bewertung ist fachspezifisch unter- 
schiedlich stark ausgeprägt. In Fällen, 
in denen Aussagen zum Forschungsda- 
tenmanagement erwartet werden, wer- 
den i.d. R. auch den Gutachtenden 
fachspezifische Orientierungshilfen 
geboten. 

In allen übrigen Fachgebieten wird er- 
wartet, dass sich Antragstellende er- 
kennbar mit der Frage auseinanderset- 
zen, ob im Projekt relevante und nach- 
nutzbare Forschungsdaten entstehen 
und falls ja, welche fachspezifischen 
Repositorien für die längerfristige Auf- 
bewahrung dieser Forschungsdaten ge- 
nutzt werden können. 


Projektzeitraum DMP-Aktualisierung 


Eine dynamische, aktualisierbare Da- 
tenmanagement-Beschreibung ist im 
Gegensatz zu den meisten anderen För- 
derern bei der DFG bis dato augen- 
scheinlich noch nicht vorgesehen. 


Datenablage-Verpflichtung 


Datenablage-Fristen 


Ja. 

Abhängig vom jeweiligen Fachgebiet, 
i.d. R. Aufbewahrung für 10 Jahre. In zu 
begründenden Fällen können verkürzte 
Aufbewahrungsfristen angemessen 
sein. 


Daten-Repositorium 


Anerkannte Archive oder Repositorien, 
mit denen den FAIR-Prinzipien gefolgt 
werden kann. Zur Recherche werden 
re3data und Risources benannt?°. 


Datenzugang Verpflichtung 


Nein. Nach Möglichkeit jedoch und 
wenn von den Forschenden gewünscht 
(die Entscheidung sollte laut DFG dabei 
nicht von Dritten abhängen) frei und 
überregional. 


Datenzugang Fristen?” 


So zeitnah wie möglich. Die DFG-Emp- 
fehlung wäre unmittelbar nach Ab- 
schluss der Forschungen oder höchs- 
tens nach wenigen Monaten. 


36 S. https://www.re3data.org/ und https://risources.dfg.de/. 
37 Falls in den Tabellen bei „Datenzugang Verpflichtung“, wie hier, „nein“ eingetragen ist, gelten 


die Fristen natürlich nur als Empfehlung. 
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Datenzugang Lizenzvorgaben 


Die rechtsichere Nachnutzung sollte 
durch die Wahl geeigneter Open Con- 
tent- Lizenzen gewährleistet werden. 
Sofern eigens entwickelte Forschungs- 
software für Dritte bereitgestellt werden 
soll, ist diese ebenfalls mit einer ange- 
messenen Lizenz zu versehen. 
Vereinbarungen über Nutzungsrechte 
an aus dem Projekt resultierenden For- 
schungsdaten und Forschungsergeb- 
nissen sollten insbesondere bei Koope- 
rationen frühzeitig getroffen und doku- 
mentiert werden. 


Acknowledgement, Zitierbarkeit 


Mit Blick auf die Granularität ist fach- 
spezifisch zu entscheiden, wie viele 
Daten einen zitierfähigen Datensatz er- 
geben, der mit einem persistenten 
Identifikator auszustatten ist. 

Die Herkunft der im Forschungsprozess 
verwendeten Daten und Software, aber 
auch von Organismen und Materialien 
ist kenntlich zu machen und die Nach- 
nutzung zu belegen; die Originalquel- 
len werden zitiert. 

Generierte Daten sollten persönlich ge- 
kennzeichnet werden, samt Namensan- 
gabe (und ggf. entsprechender Rechte- 
verwaltung bei der Speicherung). 


Sanktionen 


Bei wissenschaftlichem Fehlverhalten sind sowohl administrative (z. B. Auss- 
chluss von Folgeanträgen für definierte Zeiträume) als auch finanzielle Sanktio- 
nen (z.B. Rücknahme von Förderentscheidungen) möglich. Das Erfinden, Verfäl- 
schen oder Beseitigen von Primärdaten kann sogar strafrechtliche Konsequen- 


zen nach sich ziehen. 


Support 


— Neben den Maßgaben zu den einzelnen Projekten fördert die DFG mit dem 
Programm „Informationsinfrastrukturen für Forschungsdaten“ auch den 
Auf- und Ausbau von Strukturen für einen verbesserten Umgang mit For- 
schungsdaten und Forschungsdatenrepositorien. 


- Die DFG appelliert zudem dazu, die unter Einbindung der DFG-Fachkollegi- 
en erarbeiteten, fachspezifischen Regularien zu beachten, weitere diszi- 
plinspezifische Regularien zu entwickeln und die Leistungen bei der Ver- 
fügbarmachung von Forschungsdaten besser anzuerkennen. 


— Persönliche Ansprechpartner. 
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Tab. 2: Fonds zur Förderung der wissenschaftlichen Forschung (FWF) 


Relevante Policy- 
Webseiten?® 


URLs 


»Open Access fiir Forschungsdaten“ 


„Forschungsdatenmanagement“ 


https: //www.fwf.ac.at/de/forschungsfoerderung/open-access-policy/open-ac- 
cess-fuer-forschungsdaten/ 


https://www.fwf.ac.at/de/forschungsfoerderung/open-access-policy/for- 
schungsdatenmanagement/ 


Gültigkeit seit 


Für alle Projekte, die nach dem 01.01.2019 nach den o. g. Richtlinien bewilligt 
werden. 


Kontakt 


Katharina Rieck, katharina.rieck(at)fwf.ac.at, +43 1505 6740 8314. 


Scope Daten 


Alle Forschungsdaten und ähnliche Materialien.?? 


Ausnahmen Sollte aus rechtlichen, ethischen oder anderen Griinden ein offener Zugang zu 
Daten nicht oder nur teilweise möglich sein, ist das im DMP zu begründen und 
zu dokumentieren. Gleiches gilt, wenn keine relevanten Daten (s. Scope) gene- 
riert oder analysiert werden. 

Standards Daten, Metadaten FAIR-Prinzipien,“° Science Europe’s 
Core Requirements for Data Manage- 
ment Plans.“ 

Antragstellung DMP-Verpflichtung Ja. 

DMP-Fristen Er muss zusammen mit dem FWF-För- 


dervertrag fiir ein genehmigtes Projekt 
eingereicht werden. 


DMP-Sprache Er muss in der gleichen Sprache wie 
der Förderantrag verfasst sein. 


DMP-Länge Max. 10.000 Zeichen (inkl. Leerzei- 
chen). 

DMP-Template oder -Tools Ja (Word und PDF). 

DMP-Inhalte Der DMP soll beschreiben, wie Daten 


für ein bestimmtes Projekt gesammelt, 
organisiert, gespeichert, gesichert, auf- 
bewahrt, geteilt, archiviert und vernich- 
tet werden, wobei auch die Open-Ac- 
cess-Policy für Forschungsdaten des 
FWF zu berücksichtigen ist. Der FWF hat 
ein Mindestset an Fragen definiert, das 
den DMP umfasst und beim Ausfüllen 
der DMP-Vorlage behandelt werden 
muss. 


38 Vgl. zudem die jeweiligen FWF-Antragsrichtlinien. 
39 Gem. Rylance et al. 2016. 

40 Gem. Wilkinson et al. 2016. 

41 Vgl. Science Europe 2018a, 7-10. 
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Kostendeckungsaspekte im DMP 


Im Rahmen des Förderantrags können 
Kosten für die Aufbereitung, Archivier- 
ung, den offenen Zugang und die Nach- 
nutzung von Forschungsdaten in Repo- 
sitorien beantragt werden. 


DMP-Review 


Der DMP ist Voraussetzung für den Pro- 
jektstart und wird vom FWF auf Voll- 
ständigkeit überprüft. 


Projektzeitraum DMP-Aktualisierung 


Der DMP kann während der gesamten 
Projektlaufzeit geändert werden, wobei 
Änderungen dokumentiert werden sol- 
len. Die endgültige Fassung muss mit 
dem Endbericht eingereicht werden. 


Datenablage-Verpflichtung 


Ja. 


Datenablage-Fristen 


Daten-Repositorium 


Die Speicherungsdauer orientiert sich 
an den im jeweiligen Forschungsfeld 
maßgeblichen Fristen, soweit dies zum 
Zwecke der Nachprüfbarkeit der ge- 
wählten Methode und der erzielten Dat- 
en erforderlich ist. 


Die gewählten Repositorien müssen in 
re3data gelistet sein. Darüber hinaus 
werden ausdrücklich zertifizierte Repo- 
sitorien (z. B. CoreTrustSeal) empfohlen 
und jene, welche die „Criteria for the 
Selection of Trustworthy Repositories“ 
von Science Europe“? erfüllen. 


Datenzugang Verpflichtung 


Ja. Für Forschungsdaten, die den wis- 
senschaftlichen Publikationen des Pro- 
jekts zugrunde liegen, ist der offene Zu- 
gang verpflichtend. Das sind alle Dat- 
en, die zur Reproduktion und Überprüf- 
barkeit der Ergebnisse der Publikatio- 
nen erforderlich sind, einschließlich 
der zugehörigen Metadaten. 

Sollte aus bestimmten Gründen (s. auf 
der Vorseite genannte Ausnahmen) ein 
offener Zugang zu Daten nicht oder nur 
teilweise möglich sein, ist das im DMP 
zu begründen. 


Datenzugang Fristen 


Die o. g. Daten sollen schnellstmöglich 
veröffentlicht werden, jedoch spätes- 
tens zusammen mit der wissenschaftli- 
chen Publikation. 


42 Vgl. Science Europe 2018a, 11-14. 


1.3 Förderpolitische Maßgaben — 65 


Optionale Zugänglichmachung weiter- Der freie Zugang zu allen anderen For- 
er Daten schungsdaten des Projekts steht im Er- 


messen der Projektleitung. Das umfasst 
u.a. kuratierte Daten, die nicht direkt 
einer Veröffentlichung zugeordnet wer- 
den können, oder Rohdaten, eins- 
chließlich der zugehörigen Metadaten; 
sie sind im DMP zu beschreiben. 


Datenzugang Lizenzvorgaben Die Daten müssen so abgelegt werden, 


dass sie uneingeschränkt wiederver- 
wendet werden können (z.B. CC BY 
oder ähnliche offene Lizenzen). 


Acknowledgement, Zitierbarkeit Hinterlegte Datensätze müssen über ei- 


nen persistenten Identifikator (z.B. 
DOI) zitierbar sein. Wie bei Publikatio- 
nen üblich, ist auch für Forschungsdat- 
en (z.B. in den Metadaten) der FWF zu 
acknowledgen; auf folgende konsis- 
tente Nennung muss strikt geachtet 
werden: Austrian Science Fund (FWP): 
Projektnummer. 


Projektende Berichtspflicht Die o. g. Aktivitäten und die Erfüllung 


der Policies müssen im Endbericht an 
den FWF nachgewiesen werden. Dies er- 
folgt durch Angabe der persistenten 
Identifikatoren (z. B. DOI), unter wel- 
chen die Forschungsdaten eingesehen 
und heruntergeladen werden können. 


Monitoring Der FWF führt jährlich ein Monitoring der Erfüllung der Open Access Policy 
durch und veröffentlicht die Ergebnisse; in der Excelliste wird als Publikation- 
styp auch „Research Data“ abgedeckt. 


Support = 


Beispiele für DMPs mittels Link auf die entsprechende Sammlung des Digi- 
tal Curation Centers (DCC). 

Beispiele für disziplinübergreifende Repositorien (konkret Zenodo”, 
Dryad“* oder Open Science Framework).“? 

Literaturverweise, etwa zur Lizenzauswahl und Datenzitierung. 

Hinweise zu den FAIR Prinzipien (s. a. Standards), Science Europe’s Practi- 
cal Guide to the International Alignment of Research Data Management, 
Concordat on Open Research Data, Force 11 „Joint Declaration of data cita- 
tion principles“ und Verweise auf Re3Data sowie das CoreTrustSeal. 
Persönliche Ansprechpartnerin. 


43 S. https://zenodo.org. 
44 S. https://datadryad.org. 


45 S. https://osf.io/. 
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Tab. 3: Schweizerischer Nationalfonds zur Förderung der wissenschaftlichen Forschung (SNF) 


Einleitende eigene Die „Open Research Data“ Seite ist die übergeordnete Webseite zur u. g. Policy, 


Hinweise 


Relevante Policy- 
Webseiten 


hier sind Leitlinien und Reglemente, die Grundsatzerklärung des SNF zu Open 
Research Data, eine Zusammenfassung der FAIR-Daten-Prinzipien (samt weiter- 
führender Literatur und Beispiele für Datenarchive), FAQs, News, Initiativen und 
Strategien sowie weiterführende Informationen, bspw. mit Links auf DCC Mate- 
rialien, re3data, CoreTrustSeal usw. zu finden: http://www.snf.ch/de/derSnf/ 
forschungspolitische_positionen/open_research_data/ 


„Beitragsreglement (BR) Artikel 47: Veröffentlichung und Zugänglichmachung 
der Forschungsresultate“ 


„Allgemeines Ausführungsreglement (AR) zum Beitragsreglement Artikel 2.13 
Sachkosten: Kosten für die Zugänglichmachung von Forschungsdaten (Open 
Research Data)“ 


„Data Management Plan (DMP) - Leitlinien für Forschende“ 


URLs 


http: //www.snf.ch/de/foerderung/dokumente-downloads/Seiten/reglement- 
beitragsreglement.aspx#br_a_47 


http: //www.snf.ch/de/foerderung/dokumente-downloads/Seiten/reglement- 
ausfuehrungsreglement.aspx#ar_a_2_13 


http: //www.snf.ch/de/derSnf/forschungspolitische_positionen/open_re- 
search_data/Seiten/data-management-plan-dmp-leitlinien-fuer-forschende. 
aspx 


Version/Datum 


27.02.2015 


09.12.2015, geändert mit Beschluss des Forschungsrats vom 21.03.2017, in 
Kraft ab 01.04.2017 


ohne Datumsangabe 


Gültigkeit seit 


Für die meisten Förderinstrumente seit Oktober 2017. Es wird dazu aufgefor- 
dert, die Webseiten der Förderinstrumente zu konsultieren, ob ein DMP bei der 
Gesuchseingabe erforderlich ist. 


Kontakt 


ord(at)snf.ch. 


Scope Daten 


Der SNF erwartet von allen von ihm unterstützten Forschenden, dass sie zu- 
mindest alle mit einer Veröffentlichung zusammenhängenden, zur Reproduzier- 
barkeit nötigen Daten archivieren und teilen; weitere projektbezogene Daten 
können nach eigenem Ermessen geteilt werden. 


Ausnahmen 


Sollte aus rechtlichen, ethischen, urheberrechtlichen oder anderen Gründen 
(z.B. Vertragsklauseln) eine Teilung der Daten nicht oder nur teilweise möglich 
sein, ist das im DMP zu begründen und zu dokumentieren; die Angaben werden 
anschließend von der Geschäftsstelle des SNF geprüft. Der SNF kann die An- 
tragsteller von den Pflichten befreien, wenn der Veröffentlichung rechtliche, 
ethische oder urheberrechtliche Gründe, Vertraulichkeitsklauseln o. 4. entge- 
genstehen. Entsprechende Verpflichtungen sind dem SNF vorgängig zur Geneh- 
migung zu unterbreiten. 
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Standards Daten, Metadaten FAIR-Prinzipien 
Antragstellung DMP-Verpflichtung Ja, in den meisten Förderinstrumenten 
(s. 0.). 
DMP-Fristen Wenn Forschende ihren Antrag auf 


mySNF einreichen, werden sie aufgefor- 
dert, entsprechende Angaben zum Da- 
tenmanagement zu machen. In diesem 
Stadium gilt dieser DMP als Entwurf 
und wird nicht in die Evaluation des Ge- 
suches einbezogen (s. DMP-Review). 
Ein definitiver DMP muss spätestens 
beim Abschluss eines Projektes vorlie- 
gen (s. Berichtspflicht). 


DMP-Sprache Der DMP muss in der gleichen Sprache 
wie der Forschungsplan verfasst wer- 
den. 

DMP-Template oder -Tools Ja (PDF). 

DMP-Inhalte Der DMP soll der Planung des Lebens- 


zyklus von Forschungsdaten dienen, ist 
damit langfristig angelegt und legt u.a. 
dar, wie die Daten produziert, erhoben, 
dokumentiert, veröffentlicht und archi- 
viert werden sollten. Aufgrund fachspe- 
zifisch unterschiedlicher Praktiken und 
Standards kann er sich in seinem Inhalt 
unterscheiden. S. a. DMP-Template für 
relevante Fragenkategorien, Unterfra- 
gen und Hilfestellungen. 


DMP-Fachspezifika Seitens SNF gibt es keine fachspezifi- 
schen Vorgaben, er verweist jedoch auf 
das Science Europe Guidance Docu- 
ment Presenting a Framework for Disci- 
pline-specific Research Data Manage- 
ment.*7 


46 Gem. Wilkinson et al. 2016. 
47 Vgl. Science Europe 2018b. 
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Kostendeckungsaspekte im DMP 


Kosten für die Aufbereitung, Ablage 
und Zugänglichmachung von For- 
schungsdaten, die mit Beiträgen des 
SNF erhoben, beobachtet oder gener- 
iert wurden, sind bis zu max. 10 000 
Schweizer Franken anrechnungsfähig, 
sofern sie in digitalen, wissenschaftlich 
anerkannten Datenrepositorien abge- 
legt werden, die die FAIR-Prinzipien er- 
füllen und nicht kommerziell ausgerich- 
tet sind. 


DMP-Review 


Der DMP wird nicht wissenschaftlich 
evaluiert und hat keinen Einfluss auf 
die Antragsbewertung. Ein vollstän- 
diger und plausibler DMP ist jedoch 
eine der Voraussetzungen damit ein be- 
willigtes Projekt gestartet werden kann. 
Fehlende oder ungenaue Aussagen 
müssen ggf. nachgereicht oder präzi- 
siert werden. 


Projektzeitraum DMP-Aktualisierung 


Datenablage-Verpflichtung 


Der DMP kann während der gesamten 
Projektlaufdauer bearbeitet und sein In- 
halt der Entwicklung des Projekts ange- 
passt werden. 


Ja. 


Datenablage-Fristen 


Der SNF empfiehlt Forschungsdaten in 
der Regel für eine Dauer von 10 Jahren 
zu archivieren. 


Daten-Repositorium 


Digitale, wissenschaftlich anerkannte 
Repositorien, die die FAIR-Prinzipien er- 
füllen und nicht kommerziell ausgerich- 
tet sind. Daten können auch in kom- 
merziellen Datenarchiven abgelegt wer- 
den, jedoch sind dann nur Kosten für 
die Aufbereitung der Daten deckbar. 


Datenzugang Verpflichtung 


Ja. Mindestens alle einer Veröffentli- 
chung zugrundeliegenden Daten sollten 
dergestalt frei zugänglich gemacht wer- 
den („Open Research Data“), dass die 
Reproduzierbarkeit der publizierten Re- 
sultate gewährleistet sind (wenn für die 
Weiterverwendung spezifische Tools 
nötig sind, sollten diese idealerweise 
mit zur Verfügung gestellt oder zumin- 
dest dokumentiert werden). 


Datenzugang Fristen 


Schnellstmöglich, spätestens zusam- 
men mit der entsprechenden wissen- 
schaftlichen Veröffentlichung. 
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Optionale Ablage und Zugänglichma- Der SNF empfiehlt, dass auch alle an- 
chung weiterer Daten deren Daten, die während der For- 


schungsarbeiten produziert werden, ar- 
chiviert und zugänglich gemacht wer- 
den. 


Acknowledgement, Zitierbarkeit Auf die Förderung durch den SNF ist 


hinzuweisen. Gemäß dem Verweis auf 
die FAIR-Prinzipien und DataCite sind 
zudem persistente Identifikatoren zu 
vergeben. 


Projektende 


Berichtspflicht Die Forschenden sind dazu aufgefor- 


dert, den DMP bei Abschluss ihrer For- 
schungsarbeit zu aktualisieren. Diese 
aktualisierte Version wird zusammen 
mit dem wissenschaftlichen Schluss- 
bericht geprüft. Die Geschäftsstelle des 
SNF behält sich hierbei vor, zusätzliche 
Informationen und/oder Ergänzungen 
zum Inhalt des DMP zu verlangen. Nach 
dieser Finalisierung wird der endgültige 
DMP in der P3-Datenbank des SNF ver- 
öffentlicht. 


Weitere Vorgaben 
und Verpflichtun- 
gen 


Der SNF kann die Beitragsempfängerinnen und -empfänger auch im Lauf der Ab- 
wicklung oder nach Beendigung des Forschungsvorhabens dazu verpflichten, 
erhobene Daten für die Sekundärforschung zur Verfügung zu stellen (vgl. Allge- 
meines Ausführungsreglement zum Beitragsreglement, Artikel 11.8 Daten für 
die Sekundärforschung http://www.snf.ch/de/foerderung/dokumente-down- 
loads/Seiten/reglement-ausfuehrungsreglement.aspx#ar_a_11_8). 


Monitoring Die Erfüllung der Grundsätze, welche im Beitragsreglement und der Open Re- 
search Data Policy festgehalten sind, wird vom SNF regelmäßig evaluiert. 

Sanktionen Der SNF verhängt Sanktionen bei Verstößen gegen das Beitragsreglement (Bei- 
tragsreglement Artikel 42, 43). 

Support — Beispiele für DMPs mittels Link auf die entsprechende Sammlung des Digi- 


tal Curation Centers (DCC). 

Beispiele für disziplinübergreifende Repositorien (konkret Dryad. EUDAT, 
Havard Dataverse oder Zenodo) und Leitlinien zur Auswahl von Repositori- 
en. 

Literaturverweise zu verschiedenen Initiativen, Standards, Studien sowie 
Anleitungen und Empfehlungen, bspw. Science Europe’s Practical Guide to 
the International Alignment of Research Data Management, Concordat on 
Open Research Data, etc. 

Verweise auf re3data, CoreTrustSeal, DataCite und FORCE11 sowie die dor- 
tigen Erläuterungen zu den FAIR-Daten-Prinzipien. 
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3.2 EU-Förderer 


Tab. 4: European Commission: Horizon 2020 Open Research Data Pilot (ORD Pilot) 


Relevante Policy- „H2020 Programme AGA - Annotated Model Grant Agreement Ar- 
Webseiten ticle 29.3 Open access to research data“ 


„H2020 Programme - Guidelines to the Rules on Open Access to 
Scientific Publications and Open Access to Research Data in Hori- 
zon 2020“ 


„H2020 Programme - Guidelines on FAIR Data Management in 
Horizon 2020“ 


URLs http://ec.europa.eu/research/participants/data/ref/h2020/ 
grants_manual/amga/h2020-amga_en.pdf 


https://ec.europa.eu/research/participants/data/ref/h2020/ 
grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf 


https://ec.europa.eu/research/participants/data/ref/h2020/ 
grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf 


Version/Datum Version 5.2, 26.06.2019 
Version 3.2, 21.03.2017 
Version 3.0, 26.07.2016 


Gültigkeit seit Der Open Research Data (ORD) Pilot wurde im 2014-16er Pro- 
gramm nur auf bestimmte Horizon 2020-Förderbereiche ange- 
wandt. In der überarbeiteten Version des Programms 2017 wurde 
der ORD Pilot auf alle Förderbereiche von Horizont 2020 ausge- 
dehnt und ist nun allgemeiner Standard (mit Möglichkeit des Opt- 
outs, s. Ausnahmen). 


Kontakt Mehrere mögliche Ansprechpartner auf Seiten der Nationalen 
Kontaktstellen in Deutschland,“® u.a. z. B. die Kooperationsstelle 
EU der Wissenschaftsorganisationen (Kowi)*? oder das EU-Biiro 
des BMBF.°° 


Scope Daten Der Fokus liegt auf Forschungsdaten, die in digitaler Form vorlie- 
gen und die im Projekt entstehen oder nachgenutzt werden. Mit 
Forschungsdaten sind gesammelte oder generierte Informatio- 
nen, Fakten bzw. Zahlen zur Priifung, Validierung und als Grund- 
lage fiir Uberlegungen, Diskussionen oder Berechnungen gemeint 
(z.B. Statistiken, Ergebnisse von Experimenten, Messungen, Be- 
obachtungen, die aus Feldarbeiten resultieren, Umfrageergebnis- 
se oder Interviewaufzeichnungen). Dies inkludiert auch alle asso- 
ziierten und beschreibenden Metadaten. 


48 Vgl. European Commission 2019b. 
49 S. https://www.kowi.de. 
50 S. https://www.eubuero.de. 
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Ausnahmen Ein Opt-out ist jederzeit möglich, d.h. sowohl in der Antrags- als 
auch Grant Agreement-Vorbereitungsphase und selbst nach Un- 
terzeichnung des Grant Agreements. 

Als berechtigter Grund gilt z. B., wenn die Teilnahme mit einer 
Verpflichtung zum Schutz der Ergebnisse unvereinbar ist (z.B. 
wirtschaftliche oder industrielle Verwertung), mit Bestimmungen 
zum Schutz personenbezogener Daten oder sonstigen Erforder- 
nissen der Vertraulichkeit, wenn das Projektziel durch die Teil- 
nahme gefährdet wird oder wenn keine Forschungsdaten gem. 
o. g. Definition gesammelt bzw. generiert werden. 

Der ORD Pilot ist Standard für alle Förderbereiche von Horizon 
2020, jedoch nicht für alle Instrumente: Ausnahmen sind hier 
„EJP co-fund actions“ und „EJP co-fund prizes“, „ERC proof of con- 
cept“ Grants, „ERA-Net co-fund actions“, die keine Daten produ- 
zieren und „SME instruments, phase 1“. 


Standards Daten, Metadaten FAIR-Prinzipien, 2 RDA Metadata 
Standards Directory”? 


Antragstellung DMP-Verpflichtung Ja, bei Teilnahme am ORD Pilot. 
Bei einem Opt-out ist er nicht 
Pflicht, wird jedoch trotzdem 
empfohlen. 


DMP-Fristen Bei Antragseinreichung ist noch 
kein kompletter DMP nötig, je- 
doch sollte auf das Datenma- 
nagement kurz eingegangen 
werden (z. B. genutzte/ange- 
dachte Standards, welche Daten 
zugänglich gemacht werden, 
welche nicht und weshalb, wie 
die Daten gesichert und kura- 
tiert werden, welche Kooperatio- 
nen es beim Datenmanagement 
gibt) und die spätere DMP-Er- 
stellung im Zeitplan sowie das 
Datenmanagement in der Budge- 
tierung mitberücksichtigt wer- 
den. Bei Förderzusage muss in- 
nerhalb der ersten 6 Monate der 
Projektimplementierung eine 
erste Version des DMPs einge- 
reicht werden. 


DMP-Sprache i.d. R. Englisch 


51 Vgl. FORCE11 2016 und Wilkinson et al. 2016. 
52 Vgl. Research Data Alliance 2019. 
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DMP-Template oder -Tools 


Ja (Annex I von „H2020 Pro- 
gramme - Guidelines on FAIR 
Data Management in Horizon 
2020“). 

Die EC weist zudem auf das 
DMP-Online-Tool®? hin. 


DMP-Inhalte 


Der DMP soll das Management 
von Daten während und nach 
dem Projekt beschreiben, u. a. 
welche Daten gesammelt, verar- 
beitet und/oder generiert wer- 
den, welche Methodologien und 
Standards eingesetzt bzw. 
beachtet werden, ob Daten FAIR 
aufbereitet, geteilt bzw. als 
„Open Data“ frei zugänglich ge- 
macht werden und wie die Daten 
kuratiert und gesichert werden. 
Hierbei ist das DMP-Template zu 
beachten. 


Kostendeckungsaspekte im 
DMP 


Anfallende Kosten für den offe- 
nen Zugang zu Forschungsdaten 
sind innerhalb der kompletten 
Projektlaufzeit gemäß den Grant 
Agreement Konditionen förderfä- 
hig und erstattbar. 


DMP-Review 


Die Teilnahme am ODR Pilot ist 
nicht Teil der Antragsbegutach- 
tung, d.h. ein Opt-out würde 
nicht „bestraft“ werden. 


Projektzeitraum DMP-Aktualisierung 


Der DMP muss im Laufe des Pro- 
jekts aktualisiert werden, sobald 
sich relevante Änderungen erge- 
ben (z. B. neue Daten, Änderun- 
gen im Projektkonsortium, Ent- 
scheidung für eine Patentanmel- 
dung o. ä.) sowie bei evtl. vorge- 
sehenen periodischen Zwischen- 
reviews und im finalen 
Endreview. 


53 Vgl. Digital Curation Centre 2020b. 
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Datenablage-Verpflichtung Ja. Es müssen insbesondere die 
zur Validierung notwendigen 
Forschungsdaten (inkl. Metada- 
ten) zu Publikationen und die 
optional im DMP festgelegten 
weiteren Forschungsdaten (inkl. 
Metadaten) abgelegt und gesi- 
chert werden. 


Datenablage-Fristen Forschungsdaten zu Publikatio- 
nen so schnell wie möglich, 
idealerweise zeitgleich mit dem 
Deposit der jeweiligen Publika- 
tion; alle weiteren gem. den im 
DMP genannten Fristen. 


Daten-Repositorium Präferiert werden (z.B. Core- 
TrustSeal>“) zertifizierte For- 
schungsdatenrepositorien. Als 
Listungen bzw. Tools und Infor- 
mationsquellen werden re3data, 
Databib,°” EUDAT Collaborative 
Data Infrastructure,°° Zenodo 
und OpenAIRE?” genannt. 


Datenzugang Verpflichtung Ja, bei Teilnahme am ORD Pilot 
frei zugänglich als „Open Data“. 
Wenn für die Validierung der zu- 
gänglichgemachten Ergebnisse 
spezifische Informationen (z. B. 
Tools, spezielle Software, Analy- 
seprotokolle) nötig sind, sollten 
diese idealerweise mit zur Verfü- 
gung gestellt oder zumindest 
dokumentiert werden. 


Datenzugang Fristen Die Forschungsdaten müssen 
nicht sofort Open Access gestellt 
werden, sondern bei For- 
schungsdaten zu Publikationen 
so schnell wie möglich, bei allen 
weiteren Forschungsdaten gem. 
den im DMP genannten Embar- 
gofristen; diese sollten sich an 
den fachlichen Gewohnheiten 
orientieren. 


54 S. https://www.coretrustseal.org. 
55 S. http://databib.org. 

56 S. https://eudat.eu/eudat-cdi. 
57 S. https://www.openaire.eu. 
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Abweichende Regelungen Wenn sich Forschungsdaten auf 
„Public Health Emergencies“, al- 
so definierte Krisen im Bereich 
der öffentlichen Gesundheit be- 
ziehen (zuletzt z.B. beim Aus- 
bruch von Ebola, Zika-Viren und 
COVID-19°®), gibt es spezifische 
abweichende Regelungen: Der 
Scope der Daten umfasst dann 
alle generierten qualitätskon- 
trollierten digitalen Forschungs- 
daten, die im Kontext des Not- 
falls relevant sind; es muss ein 
DMP idealerweise noch vor der 
Grant-Unterzeichnung abgelie- 
fert werden und er muss festle- 
gen, dass relevante Forschungs- 
daten innerhalb von 30 Tagen 
nach Generierung Open Access 
gestellt werden (alle weiteren 
Forschungsdaten so schnell wie 
möglich). In Ausnahmefällen, so- 
weit mit der EC vereinbart, ist 
auch nur ein „restricted access“ 
für spezifizierte Dritte möglich, 
diese müssen jedoch voll auf die 
Forschungsdaten zur Bewälti- 
gung des Notfalls zugreifen kön- 
nen, dürfen diese jedoch in kei- 
nen anderen Kontexten verwen- 
den. 


Datenzugang Lizenzvorgaben Im Projekt müssen so früh wie 
möglich (lizenz-) rechtliche Ab- 
klärungen und Maßnahmen ge- 
troffen werden, um es Dritten zu 
ermöglichen, auf die For- 
schungsdaten zuzugreifen, 
diese zu analysieren, zu nutzen, 
zu reproduzieren und zu ver- 
breiten. Hierzu werden Lizenzen 
wie CC BY oder CCO empfohlen 
oder das EUDAT B2SHARE Tool?” 
zur Auswahl entsprechend ge- 
eigneter Lizenzen. 


58 S. https://ec.europa.eu/info/funding-tenders/opportunities/portal/screen/opportunities/topic- 
details/sc1-phe-coronavirus-2020, Abschnitt „Topic conditions and documents“, Nr. 7. 
59 S. https://b2share.eudat.eu. 
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Acknowledgement, Zitierbar- Daten sollten mittels persistent- 

keit er Identifikatoren eindeutig 
zuordenbar sein (Verweis auf 
DataCite bzw. DOIs und ORCID). 
Ein Acknowledgement und eine 
Referenz auf das EU-Funding 
muss bei der Verbreitung aller 
Projektforschungsergebnisse 
(auch Datenpublikationen) mit 
aufgenommen werden. 


Projektende 


Berichtspflicht Sofern es keine periodischen Re- 
views im Projekt gibt, muss der 
DMP spätestens zum finalen Re- 
view aktualisiert und im Report 
mit abgebildet werden. 


Monitoring 


Ein Monitoring findet während der gesamten Laufzeit von Horizon 
2020 statt, um die Open Science Policy der EC im Bedarfsfall wei- 
terentwickeln zu können. 


Sanktionen 


Es sind sowohl administrative (z.B. Ausschluss von Folgeanträ- 
gen für definierte Zeiträume) als auch finanzielle Sanktionen 
(z.B. Kürzungen, Rückforderungen) möglich. 


Support 


— Verweise auf gesammelte Materialien und Standards z.B. 
von FAlRsharing,°° vom Digital Curation Centre, ©! der Re- 
search Data Alliance®? und Science Europe.°? 

— Für spezifische technische Supportservices wird auf Open- 
AIRE und EUDAT2020 verwiesen. 


Tab. 5: European Research Council (ERC) 


Einleitende eigene Hinweise 


60 S. https://fairsharing.org. 


Die „Open Access“-Seite ist die übergeordnete Webseite zu den 
u. g. Policies, hier sind u.a. zusätzlich FAQs sowie relevante Ver- 
zeichnisse (re3data etc.), Policy-Tools (SHERPA/JULIET, ROAR- 
Map®* etc.) und Repositorien (z.B. Zenodo, Dryad, Figshare,”> 
OpenAIRE) zu finden: https://erc.europa.eu/funding-and-grants/ 
managing-project/open-access. 

In den fortfolgenden Zeilen werden nur ERC-Spezifika gelistet, fiir 
alle Informationen zum Horizon 2020 ORD Pilot siehe dort (vgl. 
Tab. 4). 


61 S. https://www.dcc.ac.uk/guidance/standards/metadata. 

62 S. http://rd-alliance.github.io/metadata-directory. 

63 S. https://www.scienceeurope.org/our-resources/practical-guide-to-the-international-align- 
ment-of-research-data-management/. 
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Relevante Policy-Webseiten „European Research Council (ERC) — Multi-Beneficiary Model 
Grant Agreement Article 29.3 Open access to research data“°® 


„Open Research Data and Data Management Plans. Information 
for ERC grantees by the ERC Scientific Council“ 


„European Research Council (ERC) - Guidelines on Implementati- 
on of Open Access to Scientific Publications and Research Data in 
projects supported by the European Research Council under Hori- 
zon 2020“ 


URLs http://ec.europa.eu/research/participants/data/ref/h2020/ 
mga/erc/h2020-mga-erc-multi_en.pdf und http://ec.europa.eu/ 
research/participants/data/ref/h2020/mga/erc/h2020-mga-erc- 
poc-multi_en.pdf 


https://erc.europa.eu/sites/default/files/document/file/ERC_in- 
fo_document-Open_Research_Data_and_Data_Management_- 
Plans.pdf 


http://ec.europa.eu/research/participants/data/ref/h2020/ 
other/hi/oa-pilot/h2020-hi-erc-oa-guide_en.pdf 


Version/Datum Version 5.0, 18.10.2017 
Version 3.1, 03.07.2019 
Version 1.1, 21.04.2017 


Gültigkeit seit ERC-Mittelempfängerinnen und -empfänger können auf freiwil- 
liger Basis seit dessen Bestehen dem Horizon 2020 ORD Pilot bei- 
treten (mit Möglichkeit des Opt-outs), s. Tab. 4. 


Kontakt erc-open-access(at)ec.europa.eu. 


Scope Daten Der Fokus liegt auf Forschungsdaten, die in digitaler Form vorlie- 
gen und die im Projekt entstehen oder nachgenutzt werden. Dies 
inkludiert auch alle assoziierten und beschreibenden Metadaten. 


Ausnahmen Die Teilnahme am Horizon 2020 ORD Pilot ist freiwillig. Ein Opt- 
out nach einer Entscheidung zur Teilnahme ist jederzeit möglich; 
im Gegensatz zu Horizon 2020-Mittelempfängerinnen und -emp- 
fängern ist die Nennung eines Opt-out-Grundes seitens ERC-Mit- 
telempfängerinnen und -empfänger freiwillig. 


Standards Daten, Metadaten FAIR-Prinzipien,©7 bei Metadaten 
minimalst Dublin Core; für diszi- 
plinspezifische Standards siehe 
z.B. FAIR-sharing, RDA Metadata 
Standards Directory®® und DCC 
Disciplinary Metadata. ©? 


64 S. https://roarmap.eprints.org. 

65 S. https://figshare.com. 

66 Ergänzend sei in diesem Zusammenhang auch auf die Annotationen aus dem H2020 Programme 
AGA - Annotated Model Grant Agreement verwiesen, vgl. European Commission 2019a, 397. 

67 Vgl. FORCE11 2016 und Wilkinson et al. 2016. 

68 Vgl. Research Data Alliance 2019. 
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Antragstellung DMP-Verpflichtung 


Ja, bei Teilnahme am ORD Pilot. 


DMP-Fristen 


Bei Antragseinreichung ist noch 
kein kompletter DMP nötig, je- 
doch sollte auf das Datenma- 
nagement kurz eingegangen 
werden (z. B. genutzte/ange- 
dachte Standards, welche Daten 
zugänglich gemacht werden, 
welche nicht und weshalb, wie 
die Daten gesichert und kura- 
tiert werden, welche Kooperatio- 
nen es beim Datenmanagement 
gibt) und die spätere DMP-Er- 
stellung im Zeitplan mitberück- 
sichtigt werden. Bei Förderzusa- 
ge muss innerhalb den ersten 6 
Monaten der Projektimplemen- 
tierung eine erste Version des 
DMPs eingereicht werden. 


DMP-Sprache 


i.d. R. Englisch 


DMP-Template oder -Tools 


Ja (Word und Open Document 
Format). 

Der ERC weist zudem auf das 
DMPonline tool”? hin. 


DMP-Inhalte 


Der DMP sollte Informationen zu 
den Datensets (z. B. wissen- 
schaftlicher Fokus, technische 
Ansätze), Metadaten, Standards 
und Protokolle, persistenten 
Identifikatoren, die vorgesehene 
Datenkuratierung und -siche- 
rung (z. B. Integritätssicherung, 
Zeitdauer der Sicherung etc.) so- 
wie zur Zugänglichkeit der Daten 
gemäß den FAIR-Prinzipien lie- 
fern. Hierbei ist das DMP-Tem- 
plate zu beachten. 


69 Vgl. Digital Curation Centre 2020a. 
70 Vgl. Digital Curation Centre 2020b. 
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DMP-Fachspezifika 


Das Dokument ,,Open Research 
Data and Data Management 
Plans. Information for ERC gran- 
tees by the ERC Scientific Coun- 
cil“ gibt spezifische Informatio- 
nen zu den Lebenswissenschaf- 
ten, Geistes- und Sozialwissen- 
schaften sowie Natur- und In- 
genieurwissenschaften (z.B. 
Metadaten-/Datenstandards, 
Fachrepositorien, Fachdaten- 
banken, fachliche Infrastruktu- 
ren und Prozesse zur Datenauf- 
bereitung und -speicherung) zur 
Beachtung im DMP und beim Da- 
tenmanagement. 


Kostendeckungsaspekte im 
DMP 


Der ERC deckt Aufwände für die 
Aufbereitung (z. B. Annotation) 
und das Ablegen von Daten. Dies 
kann sowohl Personal (z. B. Kos- 
ten eines Forschungsassisten- 
ten) als auch Kosten (z.B. eines 
kommerziellen Anbieters) um- 
fassen. 

Kosten im Zusammenhang mit 
dem offenen Zugang zu For- 
schungsdaten („Open Data“) 
sind unabhängig von der Teil- 
nahme am ORD Pilot förderfähig, 
sofern die entsprechenden Be- 
dingungen im Grant Agreement 
eingehalten werden; hierfür wer- 
den keine zusätzlichen Mittel be- 
reitgestellt, sie sind Teil des 
Grants (die notwendigen Mittel 
sollten also dort bereits bedacht 
und mit beantragt werden). 


DMP-Review 


Die Teilnahme am ODR Pilot ist 
nicht Teil der Antragsbegutach- 
tung, d.h. eine Nichtteilnahme 
oder ein Opt-out würde nicht 
„bestraft“ werden. 


Projektzeitraum 
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DMP-Aktualisierung 


Der DMP muss im Laufe des Pro- 
jekts aktualisiert werden, sobald 
sich relevante Änderungen erge- 
ben (z.B. neue Daten, Änderun- 
gen im Projektkonsortium, Ent- 
scheidung für eine Patentanmel- 
dung o. a.) sowie bei evtl. vorge- 
sehenen periodischen Zwischen- 
reviews und im finalen 
Endreview. 


Datenablage-Verpflichtung 


Ja. Es müssen insbesondere die 
zur Validierung notwendigen 
Forschungsdaten (inkl. Metada- 
ten) zu Publikationen und die 
optional im DMP festgelegten 
weiteren Forschungsdaten (inkl. 
Metadaten und v. a. solche, die 
die Entwicklung des Projektes 
beeinflusst haben - auch negati- 
ve Forschungsergebnisse kön- 
nen von Wert sein, sofern sie ei- 
nen Erkenntniswert haben) ab- 
gelegt und gesichert werden. 


Datenablage-Fristen 


Forschungsdaten zu Publikatio- 
nen so schnell wie möglich, 
idealerweise zeitgleich mit dem 
Deposit der jeweiligen Publika- 
tion; alle weiteren gem. den im 
DMP genannten Fristen. 


Daten-Repositorium 


Präferiert werden (z.B. Core- 
TrustSeal, Nestor seal,”! ISO 
16363) zertifizierte und nachhal- 
tige Forschungsdatenrepositori- 
en. Als Empfehlung fiir allgemei- 
ne Repositorien werden Zenodo, 
Dryad, Figshare, OSF, Havard 
Dataverse genannt. Für fachspe- 
zifische Repositorien werden 
ebenfalls Empfehlungen ge- 
nannt (s. DMP-Fachspezifika). 
Zur Recherche und Auswahl wer- 
den dariiber hinaus re3data und 
die EUDAT Collaborative Data In- 
frastructure empfohlen. 


71 S. https://www.langzeitarchivierung.de/Webs/nestor/EN/Zertifizierung/nestor_Siegel/siegel. 


html. 
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Datenzugang Verpflichtung 


Ja, bei Teilnahme am ORD Pilot 
frei zugänglich als „Open Data“. 
Wenn für die Validierung der zu- 
gänglichgemachten Ergebnisse 
spezifische Informationen (z.B. 
Tools, spezielle Software, Analy- 
seprotokolle) nötig sind, sollten 
diese idealerweise mit zur Verfü- 
gung gestellt oder zumindest 
dokumentiert werden. Es gilt der 
Grundsatz „as open as possible, 
as closed as necessary“. 


Datenzugang Fristen 


Die Forschungsdaten müssen 
nicht sofort Open Access gestellt 
werden, sondern bei For- 
schungsdaten zu Publikationen 
so schnell wie möglich, bei allen 
weiteren Forschungsdaten gem. 
den im DMP genannten Embar- 
gofristen; diese sollten sich an 
den fachlichen Gewohnheiten 
orientieren. 


Datenzugang Lizenzvorgaben 


Es müssen Abklärungen und 
Maßnahmen getroffen werden, 
um es Dritten zu ermöglichen, 
auf die Forschungsdaten zuzu- 
greifen, diese zu analysieren, zu 
nutzen, zu reproduzieren und zu 
verbreiten. Hierzu werden adä- 
quate Lizenzen wie CC BY oder 
CCO empfohlen oder das EUDAT 
B2SHARE Tool zur Auswahl ent- 
sprechend geeigneter Lizenzen. 


Acknowledgement, Zitierbar- 
keit 


Daten sollten mittels persisten- 
ter Identifikatoren eindeutig 
zuordenbar sein (z. B. DOI). Ein 
Acknowledgement, eine Refe- 
renz auf das EU-Funding und, wo 
möglich, das ERC-Logo muss bei 
der Verbreitung aller Projektfor- 
schungsergebnisse (auch Daten- 
publikationen) mit aufgenom- 
men werden. 


Projektende Berichtspflicht 


Der DMP muss im Projektverlauf 
upgedatet und bis zum komplet- 
tiert werden. 
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Monitoring Ein Monitoring findet statt. Zusätzlich wurden verschiedene Fall- 
studien zur Wirkungsanalyse anhand konkreter ERC-Projekte 
durchgeführt.’? 

Sanktionen Es sind sowohl administrative (z.B. Ausschluss von Folgeanträ- 


gen für definierte Zeiträume) als auch finanzielle Sanktionen 
(z.B. Streichung nicht beantragbarer Kosten) möglich. 


Support Neben den genannten Verweisen werden auch Policies und Res- 
sourcen anderer Förderer genannt, die bspw. bei der DMP-Formu- 
lierung helfen. 


4 Hindernisse bei der Implementierung der Maß- 
gaben 


Die Fachliteratur”? nennt primär drei übergeordnete Problematiken und Hindernisse 
bei der Implementierung der Maßgaben der Förderer, die teils wiederum zueinander 
in Wechselbeziehungen stehen. 

Zum einen fehlt ein supportives Datenökosystem. So mangelt es an Anreizen so- 
wohl bei den Förderern als auch bei den wissenschaftlichen Einrichtungen selbst; 
beispielsweise wird, wie in Abschnitt 3 zu sehen ist, das Datenmanagement bei der 
wissenschaftlichen Prüfung eines Projektantrags nur selten wohlwollend mit begut- 
achtet, obgleich es lokale gute wissenschaftliche Praxis demonstriert. Die supporti- 
ven Rollen und Verantwortlichkeiten im Datenökosystem sind zudem größtenteils 
noch ungeklärt, so werden meist nur die Antragstellenden in Policies adressiert, die 
Aufgaben der wissenschaftlichen Einrichtungen und (z. B. Informations- sowie tech- 
nischen) Infrastrukturen bleiben jedoch, mit Ausnahme bei der DFG weitgehend un- 
definiert. Gleichzeitig werden diese Infrastrukturen noch als mangelhaft angesehen, 
so müsste das praktische Datenmanagement z.B. besser in die täglichen Arbeitspro- 
zesse und in den Forschungszyklus eingebettet werden. Auch im rechtlichen und 
ethischen Kontext gibt es noch Unsicherheiten und Unklarheiten, wodurch sich die 
Förderer in ihren Formulierungen teils sehr vorsichtig verhalten. Die Aufbereitung 
von Daten in qualitativ hochwertige, anonymisierte Datensätze birgt hohe Kosten, 
sei es in direkten Aufwänden, sei es in indirekten oder vorgelagerten Aufwänden, 


72 Vgl. European Research Council 2020b. 

73 Für die nachfolgend gesammelten Punkte vgl. z.B. Arbeitsgruppe Forschungsdaten 2018a, 5; 
Carr und Littler 2015, 314; Digital Science et al. 2018, 5; Franke et al. 2015, 2-4; Jones 2012b, 62- 
63; Lasthiotakis, Kretz, Andrew und Sä 2015, 971; LEARN Project 2017, 12-13; Nicol, Caruso und 
Archambault 2013 iii, 1, 8; Noorman et al. 2014, 6; Nosek et al. 2015, 1422-1423; Pampel und Ber- 
telmann 2011, 56-57; Shearer 2015, 4, 32-35; Tsoukala et al. 2016, 3-7; Walport und Brest 2011, 537- 
539; Wykstra 2017, 5; Zuiderwijk und Janssen 2014, 23-28. 
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z.B. für die Entwicklung der hierfür notwendigen Expertisen. Auch hier sind teils 
die Rollen noch nicht geklärt, wer diese Ressourcen oder finanzielle Anreize hierfür 
zur Verfügung zu stellen hat. 

Ein zweites großes Hindernis ist die fachliche Heterogenität von Daten, Stan- 
dards und Best Practices, teils auch wie oben erwähnt von vorhandenen bzw. eta- 
blierten Infrastrukturen. 

Als drittes Hindernis ist die vorhandene Datenkultur bzw. genauer gesagt im 
o. g. fachlichen Kontext die Datenkulturen (Plural) zu nennen. Dies betrifft zum ei- 
nen die jeweiligen Bedenken und Affinitäten zum Datenteilen (z. B. im Gegensatz zu 
den vorherrschenden eigenen bzw. exklusiven Verwertungsinteressen), auch im 
Kontext von möglicherweise gängigen Kooperationen mit Wirtschaftspartnern. Und 
zum anderen natürlich auch, wechselseitig einhergehend mit der Datenkultur, die 
Erfahrungen und heterogenen, teils auch durchaus mangelnden Kompetenzen beim 
Datenmanagement. Entsprechend fordern manche Expertinnen und Experten, dass 
sich Förderer besser als bisher mit dem nötigen Change-Management und Kultur- 
wechsel beschäftigen und dies sowohl fokussieren als auch adressieren sollten.” 
Dies könnte auch eine „Compliance-Kultur“ verhindern, in dem Mittelempfänger 
nur minimal die Maßgaben der Förderer erfüllen, sich aber darüber hinaus (weiter- 
hin) nicht für ein angemessenes Datenmanagement im Sinne einer guten wissen- 
schaftlichen Praxis engagieren; eine mögliche Maßnahme wäre hierbei, den DMP 
als dynamisches, regelmäßig im Projekt zu aktualisierendes und abschließend be- 
gutachtetes und zu veröffentlichendes Dokument zu etablieren und einzufordern.” 

Aus der Analyse der Maßgaben der Förderer in Abschnitt 3 kann zudem noch 
konstatiert werden, dass notwendige Informationen teils relativ „verstreut“, z.B. in 
FAQs oder generell gesagt in mehreren Dokumenten zu finden und nicht immer hin- 
reichend trennscharf genug definiert sind (z.B. „datenintensive“ oder „alle signifi- 
kanten Forschungsergebnisse [...] mit klarem Wert für andere“; teils auch, ob Zu- 
sänglichkeit bzw. Datenteilung die freie Zugänglichkeit i.S.v. „Open Data“ oder 
ggf. auch „restricted access“ umfasst), insbesondere wenn diese Informationen aus- 
schlaggebend für etwaige Verpflichtungen sind. 

Unklar bleibt abschließend auch, wie die Umsetzung der Ziele und Motive der 
Förderer und deren Verpflichtungen und Empfehlungen in der Praxis konkret kon- 
trolliert bzw. gemonitort werden’® und in welchem Umfang bzw. beschriebenen Pro- 


74 Vgl. Neylon 2017, 3, 16. 

75 Vgl. Neylon 2017, 1-2, 13; Pampel und Bertelmann 2011, 57; Rylance et al. 2016, 14. 

76 Projektaussagen und Fristen könnten bspw. strukturiert beim Förderer gespeichert und zumin- 
dest stichpunktartig bei Fristerreichung kontrolliert werden; dies wäre insbesondere über längere 
Zeiträume hinweg bedeutsam (z.B. bei einer empfohlenen Datenspeicherung über 10 Jahre), i.S.v. 
ob Datenarchive, Repositorien und DOI-Registrierungsstellen die Versprechen von Persistenz und 
Langzeitverfügbarkeit erfüllen und seitens Förderer fortan empfohlen werden können. 
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zessen bei einer Nichtumsetzung Sanktionen erfolgen oder vorab zunächst Nach- 
besserungen eingefordert werden oder ähnliches. 


Fazit 


Die EU setzte mit dem Horizon 2020 Open Research Data Pilot (ORD Pilot) erste ver- 
bindliche Impulse für Forschungsdatenmanagement in den DACH-Landern,” was 
Auswirkungen auf die Förderer hierzulande hatte (s. Abschnitt 2). 

Die DFG geht derzeit die Herausforderungen im supportiven Datenökosystem 
und bei der fachlichen Heterogenität auf mehreren Ansatzebenen an, indem Verant- 
wortlichkeiten z.B. nicht nur an die Antragstellenden, sondern auch an deren Ein- 
richtungen und generell an die Fachcommunities adressiert werden. So werden Fä- 
cher, Fachgesellschaften und Communities dazu aufgefordert, Regularien unter Ein- 
bindung der DFG-Fachkollegien zu erarbeiten.’® Zu bemängeln ist jedoch die relativ 
unübersichtliche Ablage einer Vielzahl von Dokumente, Appelle und Empfehlun- 
gen, die von Antragstellenden erst langwierig gesichtet und auf verpflichtende so- 
wie empfohlene Maßgaben hin durchgearbeitet werden müssen. Teils merkt man 
auch eine „additive“ Forcierung der Verbindlichkeit mancher Aspekte seitens DFG, 
was - bei gleichzeitiger Ablage und Präsentation all dieser Dokumente - Verwir- 
rung bei deren Sichtung verursachen könnte. 

In der Praxis ist die FWF-Policy in Österreich für die Antragstellenden am ein- 
fachsten verständlich und anwendbar. Der FWF schafft es, auf zwei Seiten alles Re- 
levante so knapp und präzise wie möglich zusammenzufassen und abzubilden. 

Beim SNF wird das im Forschungsalltag zu verankernde projektbegleitende und 
-überdauernde Datenmanagement augenscheinlich am besten implementiert, in- 
dem z.B. nicht nur wie beim FWF - die DFG verzichtet darauf - ein dynamischer, 
regelmäßig zu aktualisierender DMP verlangt wird, sondern dieser zum Projektende 
geprüft und in der Datenbank des SNF veröffentlicht wird. Darüber hinaus kann die 
bzw. der Antragstellende auch nach Projektende noch dazu verpflichtet werden, er- 
hobene Daten für die Sekundärforschung zur Verfügung zu stellen. 

Wie sich abschließend zusammenfassen lässt, sollte fördererseitig möglichst 
ganzheitlich „berücksichtigt werden, dass die Herausforderung weniger in der Ver- 
abschiedung einer Policy als vielmehr in der Umsetzung einer Policy liegt“.’? Soll 
heißen, wichtig wären deren anwendernahe Formulierung, die fachnahe Umsetz- 


77 Förderer in anderen Ländern besitzen jedoch deutlich längere Erfahrungen mit entsprechenden 
Policies. Von den in Abschnitt 4 untersuchten Förderern haben der Wellcome Trust und NIH als 
erste Maßgaben postuliert, siehe auch Kriesberg et al. 2017, 3; Wykstra 2017, 4. 

78 Vgl. Deutsche Forschungsgemeinschaft 2020b. 

79 Pampel und Bertelmann 2011, 57. 
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barkeit und auch die Kontrollierbarkeit, anhand der gesetzten Ziele und Maßgaben 
und unter Berücksichtigung der landesspezifischen sowie, bei fachlichen Förderern, 
fachlichen Hindernisse und Herausforderungen (s. Abschnitt 4). 
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Anne Lauber-Rönsberg 
1.4 Rechtliche Aspekte des Forschungsdaten- 
managements 


Abstract: Der Beitrag stellt die für den Umgang mit und die Veröffentlichung von 
Forschungsdaten relevanten rechtlichen Rahmenbedingungen dar. Hierbei wird ins- 
besondere auf das Urheberrecht, die Regelungen der guten wissenschaftlichen Pra- 
xis, das Dienst- und Arbeitsrecht sowie das Datenschutzrecht eingegangen. 


Einleitung 


Ziel der rechtlichen Rahmenbedingungen ist es, einen Ausgleich zwischen den be- 
troffenen Interessen zu schaffen. Betroffen sind zum einen die durch das Grund- 
recht der Forschungsfreiheit (Art. 5 Abs. 3 GG!) geschützten Wissenschaftlerinnen 
und Wissenschaftler - sowohl diejenigen, die Forschungsdaten erheben, als auch 
diejenigen, die an einer Nachnutzung interessiert sind, - und die ebenfalls durch 
Art. 5 Abs. 3 GG geschützten Forschungseinrichtungen. Zu nennen sind des Weite- 
ren die in ihrem Recht auf Datenschutz berührten Probandinnen und Probanden so- 
wie weitere Unternehmen/Institutionen, die z.B. Daten für Forschungszwecke zur 
Verfügung stellen. Aus rechtlicher Perspektive stellen sich beim Umgang mit For- 
schungsdaten daher zwei grundlegende Leitfragen: 

Zum ersten ist die Frage zu beantworten, wem die Forschungsdaten zuzuordnen 
sind, wem also die Entscheidungsbefugnis darüber zusteht, ob, zu welchem Zeit- 
punkt und in welcher Form eine Veröffentlichung der Forschungsdaten erfolgt und 
in welcher Weise die Daten durch Dritte „nachgenutzt“ werden dürfen, und wem 
die Urheberschaft bzw. Autorschaft zukommt. Einschlägig sind hierfür neben dem 
Recht des geistigen Eigentums, insbesondere dem Urheberrecht, auch die Regelun- 
gen der guten wissenschaftlichen Praxis sowie das Arbeits- und Dienstrecht.? 

Zum zweiten stellt sich die Frage, welche rechtlichen Grenzen bei dem Umgang 
mit Forschungsdaten zu beachten sind.’ Einschränkungen können sich u.a. aus Ur- 
heberrechten Dritter, vertraglichen Vereinbarungen sowie insbesondere dem Daten- 
schutzrecht” ergeben. 


1 Der Text des Grundgesetzes (GG) kann unter https://www.gesetze-im-internet.de/gg abgerufen 
werden. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 

2 S. Abschnitt 1 dieses Beitrags. 

3 S. Abschnitt 2 dieses Beitrags. 

4 S. Abschnitt 3 dieses Beitrags. 


3 Open Access. © 2021 Anne Lauber-Rönsberg, publiziert von De Gruyter. OE Dieses Werk ist lizenziert 
unter der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-005 
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1 Zuordnung von Forschungsdaten 


1.1 Urheber- und Leistungsschutzrechte 


Zwar sind Informationen als solche - im Gegensatz zu ihrer konkreten Darstellung — 
einem urheberrechtlichen Schutz nicht zugänglich.’ Das gleiche gilt für Thesen oder 
Lehrmeinungen, die ebenfalls nicht urheberrechtlich schutzfähig sind, so dass sie 
durch das Urheberrecht nicht monopolisiert werden, damit eine freie wissenschaft- 
liche Diskussion möglich ist. 


Schutzvoraussetzungen 


In ihrer konkreten Darstellung können Forschungsdaten - wie z.B. Videos, Fotos, 
Texte, Fragebögen, Software etc. - aber durchaus durch Urheber- oder Leistungs- 
schutzrechte geschützt sein. Nach dem nicht abschließenden Werkartenkatalog des 
§2 Abs. 1 UrhG kommt ein urheberrechtlicher Schutz z.B. für Texte, Fotos, Filme, 
technische Zeichnungen und Landkarten sowie Sammel- und Datenbankwerke (84 
UrhG) in Betracht, sofern diese eine „persönliche geistige Schöpfung“ sind (82 
Abs. 2 UrhG). Hierfür muss eine Leistung insbesondere Individualität aufweisen. Es 
darf sich somit zum einen nicht lediglich um eine rein handwerkliche, routinemäßi- 
ge Leistung handeln und zum anderen darf die Gestaltung nicht durch Sachzwänge 
oder fachwissenschaftliche Gepflogenheiten vorgegeben sein, sondern es muss ein 
Gestaltungsspielraum der Wissenschaftlerin bzw. des Wissenschaftlers bestanden 
haben. Ein auf eine möglichst naturgetreue Abbildung abzielendes Dokumentati- 
onsfoto ist daher in der Regel nicht durch ein Urheberrecht geschützt; in der Regel 
wird an Fotos aber ein sog. Leistungsschutzrecht bestehen. 

Denn auch unterhalb der urheberrechtlichen Schutzschwelle rangierende wis- 
senschaftliche, organisatorische und technische Leistungen können durch solche 
Leistungsschutzrechte, auch als verwandte Schutzrechte bezeichnet, geschützt 
sein. Im Kontext des Forschungsdatenmanagements (FDM) sind insbesondere die 
Leistungsschutzrechte für Fotos und andere Lichtbilder, z.B. Aufnahmen im Rah- 
men medizinischer Bildgebungsverfahren wie Röntgen- oder MRT-Aufnahmen (872 
UrhG), Filme (895 UrhG), Tonträger (§ 85 UrhG), Datenbanken (8 87a UrhG) und wis- 
senschaftliche Ausgaben (870 UrhG) relevant, die die damit verbundene organisato- 
rische Leistung bzw. im Falle des Datenbankrechts die hierfür erforderliche Investi- 
tion schützen sollen. So wird z.B. ein Datensatz von Messwerten aus Sensordaten 


5 Vgl. Hartmann 2013, 202. 
6 Vgl. BGH 1981, 353 — Staatsexamensarbeit. 
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zwar nicht durch ein Urheberrecht geschiitzt, da Informationen als solche nicht ur- 
heberrechtlich schutzfähig sind; in der Regel wird hieran aber ein Leistungsschutz- 
recht in Form eines Datenbankrechts (§ 87a UrhG) bestehen. 

Zusammenfassend ist daher festzustellen, dass es sich insbesondere bei größe- 
ren Datenbeständen, z.B. aus dem MINT-Bereich, regelmäßig um ein Konglomerat 
aus geschützten und nicht geschützten Daten handelt, was zu einer erheblichen 
Komplexität der rechtlichen Beurteilung führen kann. In Zweifelsfällen sollte daher 
von einer grundsätzlichen Schutzfähigkeit der Forschungsdaten ausgegangen wer- 
den. Metadaten werden die urheberrechtlichen Schutzvoraussetzungen allerdings 
in der Regel nicht erfüllen, da es sich häufig nur um relativ kurze Beschreibungen 
handelt. Eine Schutzfähigkeit kommt aber ausnahmsweise in Betracht, wenn die 
Metadaten z.B. längere Texte, wie eine Bildbeschreibung, oder Fotos enthalten; zu- 
dem kann an einer Metadaten-Datenbank ein Datenbankrecht bestehen (887a 
UrhG).’ 


Rechtsinhaberschaft 


Bei urheberrechtlich geschiitzten Forschungsdaten ist Inhaber bzw. Inhaberin des 
Urheberrechts, wer die individuelle und damit urheberrechtlich schutzfähige Leis- 
tung erbracht hat (87 UrhG). Dies gilt auch für Werke, die in Erfüllung von arbeits- 
oder dienstvertraglichen Pflichten erschaffen wurden. Wenn eine bei einer Hoch- 
schule angestellte Wissenschaftlerin bzw. ein angestellter Wissenschaftler im Rah- 
men seiner arbeitsvertraglichen Verpflichtungen eine urheberrechtlich schutzfähige 
Leistung erbringt, dann steht ihm oder ihr selbst und nicht etwa dem Arbeitgeber 
das Urheberrecht zu. Allerdings werden die zur Verwertung des Werkes erforderli- 
chen Nutzungsrechte für gewöhnlich aufgrund expliziter Regelungen im Arbeits-/ 
Dienstvertrag oder stillschweigend dem Arbeitgeber eingeräumt (§ 43, § 69b UrhG).® 

Für den Bereich der Wissenschaft werden diese Grundsätze allerdings aufgrund 
der verfassungsrechtlich garantierten Freiheit der Forschung (Art. 5 Abs. 3 GG) ein- 
geschrankt. Hiernach steht den weisungsfrei und eigenverantwortlich arbeitenden 
Forschenden grundsätzlich jeweils selbst die Entscheidung darüber zu, ob und wie 
sie ihre Forschungsergebnisse veröffentlichen und verwerten. Dies führt zu einem 
nach dem Status der Person differenzierenden Bild: 

Hochschullehrerinnen und -lehrern, die ihr Fach selbständig in Forschung und 
Lehre vertreten, stehen in der Regel alle Nutzungsrechte an ihren urheberrechtlich 


7 Vgl. Klimpel 2015, 57 passim. 
8 Der Text des Urheberrechtsgesetzes (UrhG) kann unter https://www.gesetze-im-internet.de/urhg/ 
abgerufen werden. 
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geschiitzten Forschungsergebnissen sowie Fotos (§ 72 UrhG) zu, soweit keine ander- 
weitige vertragliche Vereinbarung besteht.? 

Bei wissenschaftlichen Mitarbeiterinnen und Mitarbeitern ist zu differenzieren, 
ob diese weisungsfrei arbeiten, z.B. im Rahmen eines Promotions- oder Habilitati- 
onsprojekts, oder ob sie weisungsabhdngige Dienstleistungen in Forschung und 
Lehre erbringen. Im Fall einer weisungsfreien Tätigkeit stehen ihnen grundsätzlich 
die Verwertungsrechte an ihrer jeweils eigenen Arbeitsleistung zu; eine Nutzungs- 
rechtseinräumung zugunsten des Dienstherrn erfolgt grundsätzlich nicht.’° An Er- 
gebnissen einer weisungsabhängigen Tätigkeit werden dem Arbeitgeber bzw. 
Dienstherrn grundsätzlich Nutzungsrechte eingeräumt (843 UrhG, §69b UrhG).!"! 
Das Urheberrecht als solches verbleibt hingegen auch in diesem Fall bei der wissen- 
schaftlichen Mitarbeiterin oder dem Mitarbeiter. Dies gilt insbesondere für die Urhe- 
berpersönlichkeitsrechte, wie dem Recht auf Urheberbenennung (813 UrhG).” Der 
Umfang der eingeräumten Nutzungsrechte ergibt sich aus dem jeweiligen Einzelfall 
(831 Abs. 5 UrhG). Häufig werden dem Arbeitgeber nicht nur einfache, sondern aus- 
schließliche Nutzungsrechte eingeräumt. Im wissenschaftlichen Kontext kann dies 
aber anders sein, insbesondere wenn kein Konkurrenzverhältnis zwischen den Ver- 
tragsparteien besteht, so dass im Ergebnis auch beide Seiten zur Nutzung berechtigt 
sein können. 

Allerdings ist zu berücksichtigen, dass diese urhebervertragsrechtlichen Rege- 
lungen im Einzelfall aufgrund von zwischen dem Arbeitgeber und der Wissenschaft- 
lerin bzw. dem Wissenschaftler bestehenden Loyalitäts- und Fürsorgepflichten mo- 
difiziert werden können. Dies kann z.B. der Fall sein, wenn die im Rahmen eines 
Promotionsprojekts erzielten Arbeitsergebnisse durch die gesamte Forschungsgrup- 
pe genutzt werden sollen." 

Auch im Hinblick auf Verwaltungspersonal, z.B. Mitarbeitende bei wissen- 
schaftlichen Bibliotheken und Rechenzentren, die sich mit Forschungsdaten be- 
schäftigen bzw. solche generieren (z.B. Publikationsdaten, Bibliothekskatalogda- 
ten, CRIS-Einträge etc.), gelten diese Grundsätze. Hierbei wird es sich in der Regel 
um Tätigkeiten handeln, die in Erfüllung dienstvertraglicher Verpflichtungen im 
Rahmen einer weisungsabhängigen Tätigkeit erbracht werden, so dass etwaige Ur- 
heberrechte zwar dem Mitarbeitenden selbst zustehen, die zur Verwertung erforder- 
lichen Nutzungsrechte aber beim Arbeitgeber bzw. dem Dienstherrn liegen. 

Hinsichtlich der Leistungsschutzrechte variiert die Rechtsinhaberschaft. Für Fo- 
tos und andere Lichtbilder gelten die urheberrechtlichen Regelungen entsprechend 


9 Vgl. BGH 1991, 525 - Grabungsmaterialien; Dreier und Schulze 2018, § 43 Rn. 12, Götting und 
Leuze 2017, 819 Rn. 124. 

10 Vgl. Dreier und Schulze 2018, § 43 Rn. 12; Götting und Leuze 2017, 829 Rn. 148. 

11 Vgl. Dreier und Schulze 2018, § 43 Rn. 12; Götting und Leuze 2017, 826 Rn. 143. 

12 Vgl. Dreier und Schulze 2018, § 43 Rn. 36. 

13 S. Abschnitt 1.3 dieses Beitrags. 
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(§72 Abs. 1 UrhG). Rechtsinhaberin bzw. -inhaber an einer Datenbank ist die Person, 
die die fiir die Erstellung der Datenbank erforderlichen Investitionen (z. B. Personal- 
oder Sachkosten) erbracht hat (§87a Abs. 2 UrhG), d.h. im Regelfall die For- 
schungseinrichtung. Auch im Übrigen können der Forschungseinrichtung Leis- 
tungsschutzrechte (88 85, 94, 95 UrhG) zustehen. 


Lizenzen für die Veröffentlichung von Forschungsdaten 


Als grundsätzliche Überlegung gilt, dass die Bedingungen, unter denen Forschungs- 
daten zur Nachnutzung zur Verfügung gestellt werden, so wenig restriktiv und so 
transparent wie möglich sein sollten. Da nach deutschem Recht kein vollständiger 
Verzicht auf das Urheberrecht möglich ist, kann die Bereitstellung von urheber- 
rechtlich geschützten Forschungsdaten zur Nachnutzung nur über die rechtliche 
Konstruktion eines Lizenzvertrags erfolgen. Umfassende, vergütungsfreie Nutzungs- 
rechte werden den Nutzenden insbesondere durch sog. freie Lizenzen eingeräumt. 

Z.T. nutzen Repositorien selbst entworfene Vertragsmuster. In der Praxis weit 
verbreitet sind zudem die Creative-Commons-Lizenzen,' die durch einen modularti- 
gen Aufbau individuell ausgestaltet werden können. So empfiehlt z.B. die Europäi- 
sche Kommission für die Bereitstellung von urheberrechtlich geschützten For- 
schungsdaten die Verwendung der Lizenztypen CC-BY und CCO0.!° Weitere Standard- 
Lizenzverträge, die für die Lizenzierung von Forschungsdaten in Betracht kommen, 
sind die Open Data Commons (ODC)” und die „Datenlizenz Deutschland“'® für Ver- 
waltungsdaten. 


14 Vgl. BGH 2010, 779 Rn. 14 - Gedichttitelliste III. Allerdings ist bis zum 17.07.2021 die Richtlinie 
2019/1024 über offene Daten umzusetzen, nach der öffentliche Stellen das Datenbankrecht nicht in 
Anspruch nehmen dürfen, um dadurch die Weiterverwendung von Dokumenten zu verhindern oder 
über die Beschränkungen der Richtlinie hinaus einzuschränken. 

15 S. https://creativecommons.org/licenses/; dazu ausführlich Kreutzer 2016. 

16 Vgl. European Commission 2019, 253. 

17 S. https://www.opendatacommons.org. 

18 S. https://www.govdata.de/dl-de/zero-2-0. 
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Tab. 1: Creative Commons Lizenzen 


Lizenz Erlaubt sind: Unter der Bedingung: 
CC BY Vervielfältigung, Weitergabe, Erstel- Namensnennung: Bezeichnung des Er- 
lung von Bearbeitungen sowie deren stellers (soweit angegeben); Nennung 
Vervielfaltigung und Weitergabe fiir des jeweiligen Lizenztyps und Referenz 
kommerzielle und nicht-kommerzielle auf Lizenztext durch URI/Hyperlink; 
Zwecke URI/Hyperlink zum lizenzierten Materi- 
al, soweit verniinftigerweise praktika- 
bel; Copyright-Vermerk und Hinweis auf 
Haftungsausschluss (beides nur, soweit 
angegeben); ggf. Hinweis, wenn lizen- 
ziertes Material verändert wurde 
CC BY-SA S.0. Namensnennung (S. 0.); 
Share Alike: abgewandelte Material 
muss unter vergleichbarer freier Lizenz 
zur Verfiigung gestellt werden 
CC BY-ND Vervielfaltigung, Weitergabe und Namensnennung (s. 0.) 
Bearbeitung fiir kommerzielle und 
nicht-kommerzielle Zwecke, aber kei- 
ne Vervielfältigung/Weitergabe von 
Bearbeitungen 
CC BY-NC Vervielfältigung, Weitergabe, Erstel- | Namensnennung (Ss. o.) 
lung von Bearbeitungen sowie deren 
Vervielfältigung und Weitergabe, aber 
nur für nicht-kommerzielle Zweck 
CC BY-NC-ND Vervielfältigung, Weitergabe, Erstel- | Namensnennung (s. o.) 
lung von Bearbeitungen sowie deren 
Vervielfältigung und Weitergabe, aber 
nur für nicht-kommerzielle Zwecke und 
keine Vervielfältigung/Weitergabe von 
Bearbeitungen 
cco z.T. Verzicht auf das Urheberrecht; da grundsätzlich keine Namensnennung 
dies im deutschen Urheberrecht nicht erforderlich 
möglich ist, weitestmögliche Einräu- 
mung von Nutzungsrechten 
CCO Plus wie CCO wie CCO, aber unverbindliche Aufforder- 


(inoffizieller Li- 
zenztyp, z. T. in 
der Bibliotheks- 
praxis genutzt!) 


ung zur Namensnennung, soweit prakti- 
kabel 


19 S. z.B. den Usage Guide der British Library in Bezug auf Catalogue datasets, https://www.bl.uk/ 
about-us/terms-and-conditions/catalogue-datasets-in-rdf-and-csv. 
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Aufgrund der damit einhergehenden Beschränkungen sind die Lizenzbausteine NC 
(Nutzung nur für nicht-kommerzielle Zwecke) und ND (keine Vervielfältigung/Wei- 
tergabe von Bearbeitungen) nicht empfehlenswert. Daher sollte beim Betreiben von 
Repositorien in Erwägung gezogen werden, diese Lizenztypen nicht zur Wahl zu 
stellen. Bei der Auswahl des Lizenztyps sollte zudem beachtet werden, dass auch 
die Verpflichtung zur Namensnennung (BY), gerade bei umfangreichen Datenban- 
ken, zu erheblichen praktischen Problemen führen kann, insbesondere da dieses Er- 
fordernis in den CC-Lizenzen recht kompliziert ausgestaltet ist. Daher sollte auch 
eine Lizenzierung unter CCO oder CCO Plus in Betracht gezogen werden. Auch bei 
Berücksichtigung des insbesondere im wissenschaftlichen Kontext gegebenen Inter- 
esses an einer Attribution ist eine vertragliche Verpflichtung zur Namensnennung 
nicht unbedingt erforderlich, weil sich eine Verpflichtung zur Zitierung der Original- 
quelle, soweit dies möglich ist, ohnehin aus den Grundsätzen der guten wissen- 
schaftlichen Praxis ergibt.” 

Zu beachten ist zudem, dass sich die Regelungen der Creative-Commons-Lizen- 
zen ausschließlich auf durch Urheber- oder Leistungsschutzrechte” geschützte For- 
schungsdaten beziehen. Die Nutzung von gemeinfreien Forschungsdaten wird 
durch die Creative-Commons-Lizenzen hingegen nicht eingeschrankt.” Nutzungsbe- 
schränkungen, wie die Pflicht zur Namensnennung oder die Beschränkung auf 
nicht-kommerzielle Nachnutzungen, gelten für gemeinfreie Forschungsdaten daher 
wohl nicht. Selbstverständlich bestehen aber auch bei gemeinfreien Forschungsda- 
ten die sich aus der guten wissenschaftlichen Praxis ergebenden Verpflichtungen 
zur Quellenangabe und die Beachtung der Autorschaft. 


1.2 Gute wissenschaftliche Praxis 


Zu beachten sind des Weiteren die Regeln der guten wissenschaftlichen Praxis.” 
Verbindliche Vorgaben für das wissenschaftliche Personal der Hochschulen sowie 
Studierende ergeben sich aus dem jeweils anwendbaren Landeshochschulgesetz™ 
sowie der jeweiligen Hochschulsatzung. Allgemeine Standards setzt zudem der am 
1.8.2019 in Kraft getretene — für einzelne Forschende nicht unmittelbar verbindli- 


20 Vgl. DFG 2019, 14 — Erläuterungen zu Leitlinie 7. 

21 Seit der Version 4.0 wird mittlerweile auch das Sui-generis-Datenbankrecht explizit erwähnt, s. 
Abschnitt 1 c. und j. 

22 S. z.B. Abschnitt 8 a. CC-BY 4.0. 

23 S.a. den Beitrag von Rösch, Kap. 1.5 in diesem Praxishandbuch. 

24 83 Abs. 5 LHG-BW; Art. 6 Abs. 1 S. 3 BayHSchG; §4 Abs. 5 BbgHG; §7a HSG-Bremen; §9 Abs. 2 
HmbHG; §4 Abs. 4 HG-NRW; § 4 HochSchG-RP; 84 Abs. 5 HSG-LSA; § 4 Abs. 2 S. 3 HSG-SH; 88 Abs. 6 
ThürHG. 
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che — DFG-Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“,~ der 


die DFG-Denkschrift von 1998” abgelöst hat. Aus Leitlinie 14 des Kodex ergeben 
sich detaillierte Vorgaben zur Autorschaft, die fiir Datenpublikationen gleicherma- 
ßen gelten wie fiir andere wissenschaftliche Publikationen. 

Wie Leitlinie 10 zeigt, gehören auch die Fragen, wem die Entscheidungsbefug- 
nis darüber zusteht, ob, zu welchem Zeitpunkt und in welcher Form eine Veröffent- 
lichung der Forschungsdaten erfolgt und in welcher Weise die Daten genutzt oder 
gar durch Dritte „nachgenutzt“ werden dürfen, zur guten wissenschaftlichen Praxis. 
Allerdings sind die Vorgaben des Kodex insoweit weniger klar. In den Erläuterun- 
gen zu Leitlinie 10 wird darauf verwiesen, dass die Nutzung der generierten Daten 
insbesondere den Forschenden zustehe, die sie jeweils erheben. Hinsichtlich der 
Frage, wem die Entscheidungsbefugnis darüber zusteht, ob Dritten Zugang zu den 
Daten gewährt wird, verweist der Kodex darauf, dass dies im Rahmen eines laufen- 
den Forschungsprojekts auch die Nutzungsberechtigten seien. Somit werden als we- 
sentliche Grundprinzipien die Nutzungsbefugnis der die Daten erhebenden For- 
schenden sowie die daraus grundsätzlich resultierende Entscheidungsbefugnis 
hinsichtlich der Eröffnung von Nutzungsmöglichkeiten für Dritte formuliert. Zu- 
gleich empfiehlt der neue Kodex, diese Fragen durch dokumentierte Vereinbarun- 
gen zu regeln, was angesichts der Vielfalt der denkbaren Fallgestaltungen sehr 
sinnvoll ist. 


1.3 Dienst- bzw. arbeitsrechtliche Zuordnungen 


Des Weiteren können sich über die — oben dargestellten urhebervertragsrechtlichen 
Regelungen hinaus” - aus dem Arbeitsvertrag bzw. Dienstverhältnis Vorgaben 
dazu ergeben, wem Entscheidungs- und Nutzungsbefugnisse hinsichtlich der For- 
schungsdaten zustehen. Zwischen dem Dienstherrn und den einzelnen Forschenden 
bestehen vertragliche Treue- und Fürsorgepflichten (§ 241 Abs. 2 BGB, 845 S. 1 Be- 
amtStG); dies gilt selbst dann, wenn diese nicht ausdrücklich im Arbeits- bzw. 
Dienstvertrag normiert wurden. Der Umfang der jeweils bestehenden Treue- und 
Fürsorgepflichten ist durch eine Abwägung der betroffenen Interessen im jeweiligen 
Einzelfall zu ermitteln, also sehr situationsabhängig. 

Es spricht vieles dafür, auch die Regelungen der guten wissenschaftlichen Pra- 
xis für die Vertragsauslegung heranzuziehen. So hat z.B. die Rechtsprechung ent- 
schieden, dass Wissenschaftlerinnen und Wissenschaftlern aufgrund vertraglicher 
Nebenpflichten aus dem Arbeitsvertrag ein Recht auf Anerkennung ihrer Autor- 


25 Vgl. DFG 2019. 
26 Vgl. DFG 1998. 
27 S.o. zur Rechtsinhaberschaft in Abschnitt 1.1. dieses Beitrags. 
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schaft zusteht. Hieraus kann sich z.B. eine Verpflichtung des Arbeitgebers ergeben, 
unrichtige Einträge im Forschungsinformationssystem zu korrigieren,” eine Veröf- 
fentlichung zu ermöglichen” oder ggf. auch durch entsprechende Vorgaben Sorge 
dafür zu tragen, dass die Regeln der wissenschaftlichen Autorschaft beachtet wer- 
den. 

Bislang gibt es jedoch kaum Rechtsprechung dazu, ob sich die vertraglichen 
Pflichten Auswirkungen auf die an Forschungsdaten bestehenden Entscheidungs- 
und Nutzungsbefugnisse haben können. In einem derzeit anhängigen Gerichtsver- 
fahren, in dem ein ausgeschiedener wissenschaftlicher Mitarbeiter von seinem ehe- 
maligen Arbeitgeber, einer Forschungseinrichtung, u.a. verlangt, dass ihm die von 
ihm im Rahmen seines Habilitationsprojekts erhobenen, bei dem Arbeitgeber ge- 
speicherten, urheberrechtlich nicht geschützten Forschungsdaten zur Verfügung 
gestellt werden, damit er diese zur Beendigung seiner Qualifikation nutzen könne, 
hat das Oberlandesgericht Dresden jüngst erwogen, dass sich solche Ansprüche aus 
dem allgemeinen Persönlichkeitsrecht der Wissenschaftlerin bzw. des Wissenschaft- 
lers ergeben könnten, die Frage aber mangels Entscheidungserheblichkeit aus- 
drücklich offen gelassen. Näherliegender wäre in einem solchen Fall wohl die An- 
nahme entsprechender vertraglicher Nebenpflichten, auf deren Grundlage dem Ha- 
bilitanden ggf. ein einfaches Nutzungsrecht zur Verwendung der Daten zustehen 
könnte. 

In anderen Fallkonstellationen könnte sich aus der Auslegung des Dienstver- 
trags z.B. ergeben, dass in Abweichung von den Grundsätzen des DFG-Kodex? 
nicht dem Forschenden, der die Daten erhoben hat, sondern vielmehr dem Dienst- 
herrn bzw. Forschungsgruppenleiter zumindest eine Mitentscheidungsbefugnis 
oder gar die alleinige Entscheidung über den Umgang mit Forschungsdaten zusteht. 
Dies würde z.B. dann den Interessen der Vertragsparteien entsprechen, wenn der 
Dienstherr seinerseits Verpflichtungen hinsichtlich des Umgangs mit Forschungser- 
gebnissen unterliegt, weil er sich z.B. gegenüber einem Forschungsförderer dazu 
verpflichtet hat, bestimmte Forschungsdaten innerhalb vorgegebener Zeiträume zu 
veröffentlichen, und dies den beteiligten Forschenden von Vornherein bekannt ist. 


2 Rechtliche Grenzen der Nutzung von Daten 


Rechtliche Beschränkungen der Nutzung von Daten, die innerhalb der eigenen Ein- 
richtung erhoben oder die in Forschungsdatenrepositorien (FDR) oder auf andere 


28 Vgl. LAG Mecklenburg-Vorpommern 2017, Rn. 30 ff., insbes. Rn. 32. 

29 Vgl. Verwaltungsgericht Freiburg 1983, 287. 

30 Vgl. OLG Dresden 2018, unter C.1.3. 

31 S.o. Abschnitt 1.2 dieses Beitrags zu den Erläuterungen zu Leitlinie 10 des DFG-Kodex. 
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Weise von Dritten zur Verfügung gestellt wurden, können sich insbesondere aus Ur- 
heber- oder Leistungsschutzrechten Dritter, vertraglichen Vereinbarungen und Ge- 
heimhaltungsabreden sowie datenschutzrechtlichen Vorgaben? ergeben. 

Sind die Forschungsdaten durch Urheber- oder Leistungsschutzrechte geschützt, 
dann ist eine Vervielfältigung, Verbreitung oder öffentliche Wiedergabe (88 15 ff. 
UrhG) nur zulässig, wenn die Rechtsinhaberin bzw. der Rechtsinhaber dies gestattet 
hat, z.B. durch Einräumung einer entsprechenden Lizenz, oder wenn die jeweilige 
Nutzung gesetzlich erlaubt wird, z.B. im Rahmen des Zitatrechts (851 UrhG) oder 
der Regelungen über Unterricht, wissenschaftliche Forschung und Text und Data 
Mining (8 60a, § 60c, § 60d UrhG).?? Auch der Umfang der Nutzungsberechtigung er- 
gibt sich aus der jeweiligen Lizenz bzw. der gesetzlichen Nutzungserlaubnis. 

Zudem besteht im Hinblick auf urheberrechtlich geschützte Werke sowie auf Fo- 
tos eine Verpflichtung zur Urheberbenennung (813, §63 UrhG). Noch weiter ist der 
Kreis der nach den hochschulrechtlichen Vorgaben zu nennenden Autorinnen und 
Autoren (vgl. §24 HRG und die Regelungen in den Landeshochschulgesetzen sowie 
Leitlinie 14 des DFG-Kodex): Während nur diejenigen Urheberinnen bzw. Urheber 
sind, die einen urheberrechtlich schutzfähigen Beitrag geleistet haben (wozu z.B. 
nicht die Entwicklung einer wissenschaftlichen These zählt”), sind bei der Veröf- 
fentlichung von Forschungsergebnissen alle diejenigen als Mitautorinnen bzw. -au- 
toren zu nennen, die einen wesentlichen wissenschaftlichen oder wesentlichen 
sonstigen Beitrag geleistet haben. 

Daten werden häufig auf vertraglicher Grundlage zur Verfügung gestellt. Unab- 
hängig davon, ob die Datenbestände durch Urheber- oder Leistungsschutzrechte ge- 
schützt sind, sind die vertraglich vereinbarten Nutzungsbedingungen und -be- 
schränkungen zu beachten (s. aber $87e UrhG). Insbesondere können sich auch 
Beschränkungen aus vertraglichen Verpflichtungen ergeben, z.B. aus Geheimhal- 
tungsabreden, insbesondere im Rahmen von Auftragsforschung, oder aufgrund des 
Schutzes von Geschäftsgeheimnissen (§ 2 GeschGehG). 


3 Datenschutzrechtliche Vorgaben 


Wenn personenbezogene Forschungsdaten verarbeitet werden, sind zudem die da- 
tenschutzrechtlichen Rahmenbedingungen zu beachten. Seit dem 25.05.2018 erge- 
ben sich die maßgeblichen Vorgaben für den Umgang mit personenbezogenen Da- 
ten primär aus der unmittelbar anwendbaren Datenschutzgrundverordnung (DS- 


32 Zum Datenschutzrecht s. u. Abschnitt 3 dieses Beitrags. 

33 Für einen kurzen Überblick s. z.B. Lauber-Rönsberg, Krahn, Baumann 2018, 10; BMBF 2019, 11, 
21 ff. 

34 Zur Gemeinfreiheit von Informationen und Thesen s.o. Abschnitt 1.1 dieses Beitrags. 
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GVO)? der Europäischen Union. In einigen Bereichen hat der europäische Gesetzge- 
ber allerdings den nationalen Gesetzgebern Regelungsspielräume eingeräumt. Sol- 
che sog. Öffnungsklauseln bestehen insbesondere im Hinblick auf Datenverarbei- 
tungen durch Behörden und andere staatliche Institutionen. Dies gilt auch für den 
Bereich von Wissenschaft und Forschung (z.B. Art. 9 Abs. 2 lit. į DSGVO), so dass 
hier auch das Bundesdatenschutzgesetz (BDSG) bzw. die Landesdatenschutzgeset- 
ze sowie eine Vielzahl von speziellen Gesetzen?” neben der DSGVO zur Anwendung 
kommen. 

Datenverarbeitungen durch die öffentlichen Einrichtungen der Länder, z.B. 
(Landes-)Hochschulen, Universitätskliniken und (Landes-)Bibliotheken, werden 
grundsätzlich durch die Landes(datenschutz)gesetze geregelt, während für For- 
schungseinrichtungen des Bundes, wie z.B. das Robert-Koch-Institut und die Hoch- 
schule des Bundes für öffentliche Verwaltung, sowie privatrechtlich organisierte 
Forschungseinrichtungen, z.B. die als Verein organisierte Max-Planck-Gesellschaft, 
grundsätzlich das BDSG gilt (§1 Abs. 1 S. 2 BDSG). In der Praxis sind daher die DS- 
GVO und die einschlägigen nationalen Datenschutzgesetze nebeneinander anwend- 
bar, was zu einer erheblichen Komplexität führen kann.*® 

Die föderale Ausgestaltung wirkt sich auch auf die Zuständigkeiten der daten- 
schutzrechtlichen Aufsichtsbehörden aus. Für die Überwachung und Durchsetzung 
der datenschutzrechtlichen Vorhaben sind im Hinblick auf öffentliche Stellen des 
Bundes der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit 
(BfDI) zuständig, für öffentliche Einrichtungen der Länder, wie die Hochschulen, 
und für privatrechtlich organisierte (Forschungs-)Einrichtungen hingegen die jewei- 
ligen Landesdatenschutzbehörden. 


3.1 Personenbezogene Daten 


Das Datenschutzrecht ist nur dann einschlägig, wenn personenbezogene Daten ver- 
arbeitet werden. 


35 Der Text der DSGVO kann unter https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=- 
CELEX:32016R0679 abgerufen werden. 

36 Der Text des Bundesdatenschutzgesetzes (BDSG) kann unter https://www.gesetze-im-internet. 
de/bdsg_2018/ abgerufen werden. 

37 Z.B.884 des Hessischen SchulG, der wissenschaftlichen Forschungsvorhaben in Schulen regelt, 
oder § 303e Abs. 1 Nr. 8 Sozialgesetzbuch V, der die Verwendung von aufbereiteten Daten der Kran- 
kenkassen für wissenschaftliche Vorhaben gestattet. 

38 Vgl. RatSWD 2020, 15. 
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Personenbezug: zumindest Identifizierbarkeit 


Personenbezogen sind gemäß Art. 4 Nr. 1 DSGVO alle Informationen, die sich auf 
eine identifizierte oder identifizierbare Person beziehen. Eine Person ist identifizier- 
bar, wenn sie direkt oder indirekt, z.B. durch Zuordnung zu einem Namen, einer 
Kennnummer, zu Standortdaten etc., identifiziert werden kann. Hierbei sind alle 
Mittel zu beriicksichtigen, die von den Verantwortlichen oder einer anderen Person 
unter Berücksichtigung der konkreten Umstände (z.B. des Kosten- und des Zeitauf- 
wands) wahrscheinlich genutzt werden, um die Person direkt oder indirekt zu iden- 
tifizieren (Erwägungsgrund 26 DSGVO). Bei der Prüfung, ob eine Person identifizier- 
bar ist, ist auch ein bei Dritten vorhandenes Zusatzwissen zu berücksichtigen, wenn 
ein Zugriff der Datenverarbeiterin bzw. des Datenverarbeiters auf diese zusätzlichen 
Informationen rechtmäßig und ohne unverhältnismäßig großen Aufwand möglich 
wäre.’ Einen Personenbezug aufweisen können daher z.B. auch Fotos mit verpixel- 
ten Gesichtern, wenn aufgrund des Hintergrunds, der Kleidung und Haltung der ab- 
gebildeten Personen sowie begleitender Informationen über Zeitpunkt und Ort der 
Aufnahme eine Identifizierung möglich ist. 


Anonymisierte Daten 


Anders als personenbezogene Daten unterliegen anonymisierte Daten, bei denen 
eine Identifizierung nach den oben genannten Maßstäben ausgeschlossen ist, nicht 
den Restriktionen des Datenschutzrechts. Allerdings wird der geforderte Grad an 
Anonymisierung, bei dem jeglicher Personenbezug eliminiert wird, in der Praxis 
häufig nicht zu erreichen sein, wenn der Informationsgehalt der Daten erhalten 
bleiben soll.*° Zudem ist zu beachten, dass Forschungsdaten neben Informationen 
zu den Probandinnen bzw. Probanden auch - z.B. in den Metadaten - Informatio- 
nen zu den beteiligten Forschenden enthalten können. 

Die Grenze zwischen personenbezogenen und nicht-personenbezogenen Daten 
dürfte in der Praxis nicht immer leicht zu ziehen sein. Kann der Personenbezug ei- 
nes Forschungsdatums nicht völlig ausgeschlossen werden, sollte darum sicher- 
heitshalber von der Anwendbarkeit des Datenschutzrechts ausgegangen werden. 


39 Vgl. EuGH 2017, Rn. 42 ff. - Breyer/Deutschland. 
40 S. zu Verfahren der Anonymisierung Winter, Battis und Halvani 2019. 
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Pseudonymisierte Daten 


Werden die Daten von den identifizierenden Merkmalen getrennt, können diese den 
Daten aber über eine Zuordnungsregel wieder zugeordnet werden, so dass die be- 
troffenen Personen auf diese Weise re-identifizierbar werden, so bezeichnet man die 
Daten als pseudonymisiert (Art. 4 Nr. 5 DSGVO). Eine Pseudonymisierung liegt z.B. 
vor, wenn der für sich genommen nicht zuzuordnende Datensatz einer Probandin 
bzw. eines Probanden von dessen Namen getrennt und lediglich durch eine Kenn- 
ziffer oder ein anderes Pseudonym“! gekennzeichnet wird, aber z.B. über eine Liste 
der Namen und Kennziffern eine Zuordnung zu der bzw. dem jeweiligen Probandin 
bzw. Probanden möglich wäre. 

Ob pseudonymisierte Daten einen Personenbezug aufweisen und damit den da- 
tenschutzrechtlichen Vorgaben unterliegen, wird im juristischen Schrifttum unter- 
schiedlich beantwortet. Während zum Teil davon ausgegangen wird, dass pseud- 
onymisierte Daten aufgrund der grundsätzlich gegebenen Personenbeziehbarkeit in 
jedem Fall als personenbezogene Daten zu behandeln sind,“ wird von anderen 
überzeugend dafür plädiert, auf die jeweils einer konkreten Person, die die Daten 
verarbeitet, zur Verfügung stehenden Erkenntnismöglichkeiten abzustellen: Wenn 
diese die Zuordnungsregel kennt oder in rechtlich zulässiger und unter Praktikabili- 
tätsgesichtspunkten denkbarer Weise Zugang zu ihr bekommen könnte, so handelt 
es sich um personenbezogene Daten. Ist dies nicht der Fall, weil die Zuordnungsre- 
gel für die datenverarbeitende Person unter keinen Umständen zugänglich ist, dann 
stellt die Pseudonymisierung für diese Person eine Anonymisierung dar. Wie die 
Trennung von Zuordnungsregel und Datensätzen zu bewerkstelligen ist, hängt vom 
Einzelfall ab. Vorgeschlagen wird z.B. die Übergabe der Zuordnungsregel an eine 
von der Forschungseinrichtung unabhängige Stelle, z.B. eine Notarin bzw. einen 
Notar, die bzw. der sie den Forschenden nicht ohne Einwilligung der Probandinnen 
bzw. der Probanden zugänglich machen darf.“ 


Besondere Kategorien personenbezogener Daten 


Einige personenbezogene Daten kategorisiert die DSGVO als besonders sensibel. 
Dies sind zum einen Daten, aus denen die rassische und ethnische Herkunft, politi- 
sche Meinungen, religiöse oder weltanschauliche Überzeugungen, die sexuelle Ori- 
entierung oder die Gewerkschaftszugehörigkeit hervorgehen, sowie genetische, bio- 


41 Dieses Pseudonym sollte seinerseits keine Rückschlüsse auf die Identität der Probandinnen bzw. 
Probanden zulassen; s. die Beispiele bei Watteler und Ebel 2019, 76. 

42 Vgl. Ernst, in: Paal und Pauly 2018, Art. 4 Rdnr. 40. 

43 Vgl. Roßnagel 2018, 245. 
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metrische und Gesundheitsdaten (Art. 9 DSGVO) sowie Daten über strafrechtliche 
Verurteilungen und Straftaten (Art. 10 DSGVO). Soweit diese besonderen Kategorien 
personenbezogener Daten betroffen sind, gelten striktere Vorgaben für die Rechtmä- 
Rigkeit der Datenverarbeitung. So setzt z.B. eine wirksame Einwilligung in die Ver- 
arbeitung solch sensibler Daten voraus, dass die Einwilligung ausdrücklich erfolgt 
(Art. 9 Abs. 2 lit. aDSGVO); alternativ ist ein speziell auf sensible Daten anwendba- 
rer Erlaubnistatbestand erforderlich. 


3.2 Grundsätze der Datenverarbeitung 


Art. 5 DSGVO führt die wesentlichen Grundsätze für die Verarbeitung personenbezo- 

gener Daten auf. Danach gilt: 

- Personenbezogene Daten müssen auf rechtmäßige und faire Weise und unter 
Wahrung des Transparenzgrundsatzes verarbeitet werden (Art. 5 Abs. 1 lit. a DS- 
GVO). 

- Nach dem Grundsatz der Zweckbindung dürfen Daten nur für festgelegte, ein- 
deutige und legitime Zwecke erhoben werden und nicht in einer mit diesen 
Zwecken nicht zu vereinbarenden Weise weiterverarbeitet werden. Allerdings 
privilegiert die DSGVO die Forschung, da eine Weiterverarbeitung für For- 
schungszwecke nicht als unvereinbar mit den ursprünglichen Zwecken gilt (Art. 
5 Abs. 1 lit. b DSGVO).“* Ausnahmsweise kann eine Einwilligung in die Daten- 
verarbeitung für Forschungszwecke auch dann wirksam sein, wenn der Zweck 
der Datenverarbeitung nicht genau festgelegt ist, sondern die Einwilligung als 
sog. broad consent ausgestaltet ist, wenn sich der Zweck der Datenverarbeitung 
also nicht im Vorhinein mit der erforderlichen Genauigkeit festlegen lässt. 

- Die Datenverarbeitung muss hinsichtlich ihres Umfangs auf das für die jeweili- 
gen Zwecke notwendige Maß beschränkt sein (Art. 5 Abs. 1 lit. c DSGVO). Dieser 
Grundsatz der Datenminimierung kann in einem Spannungsverhältnis zu den 
Forschungsinteressen stehen, möglichst umfassende Daten zu erheben und zu 
verarbeiten. 

- Die verarbeiteten Daten müssen sachlich richtig und aktuell sein (Art. 5 Abs. 1 
lit. d DSGVO). 

— Nach dem Grundsatz der Speicherbegrenzung dürfen personenbezogene Daten 
nur so lange gespeichert werden, wie dies für die konkreten Verarbeitungszwe- 
cke erforderlich ist. Eine Ausnahme gilt allerdings für Datenverarbeitungen zu 
Forschungszwecken, soweit geeignete technische und organisatorische Maß- 
nahmen, z.B. Verschlüsselungen, eine Pseudonymisierung o.ä., zum Schutz 


44 Es ist allerdings streitig, ob hierfür ein gesonderter Erlaubnistatbestand erforderlich ist; dies 
grundsätzlich verneinend Roßnagel (2019), 162 mit weiteren Nachweisen, auch zur Gegenansicht. 
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der betroffenen Personen ergriffen werden (Art. 5 Abs. 1 lit. e DSGVO). In diesem 
Fall diirfen Daten langer gespeichert werden, als dies fiir den primaren Verar- 
beitungszweck erforderlich ist, um z. B. eine rechtmäßige Nachnutzung der For- 
schungsdaten für Forschungszwecke zu ermöglichen oder um gemäß den Vor- 
gaben der guten wissenschaftlichen Praxis” eine Nachvollziehbarkeit der Daten 
und Ergebnisse zu gewährleisten. Zur Einhaltung des Grundsatzes der Speicher- 
begrenzung sollten Daten, die auf Grundlage der Forschungsprivilegierung län- 
ger gespeichert werden, nach Möglichkeit pseudonymisiert oder anonymisiert 
werden, wenn dies ohne gravierende Einbußen ihrer Nutzbarkeit möglich ist, 
soweit dies nicht bereits im Rahmen der für den Primärzweck erfolgten Daten- 
verarbeitung geschehen ist.“° 

- Durch geeignete technische und organisatorische Maßnahmen, z.B. Geheimhal- 
tungsverpflichtungen und ein ausreichendes Maß an IT-Sicherheit, muss ein 
Schutz vor unbefugten Datenverarbeitungen, Datenverlust etc. gewährleistet 
sein (Art. 5 Abs. 1 lit. f DSGVO). 

- Die verantwortliche Person muss die Einhaltung der datenschutzrechtlichen 
Grundsätze nachweisen können (Rechenschaftspflicht, Art. 5 Abs. 2 DSGVO), in- 
dem er eine entsprechende Dokumentation führt. 


3.3 Rechtmäßigkeit der Datenverarbeitung 


Personenbezogene Daten dürfen nur dann erhoben oder verarbeitet werden, wenn 
eine Einwilligung der betroffenen Personen vorliegt oder ein anderer gesetzlicher 
Erlaubnistatbestand die Datenverarbeitung gestattet (Art. 6 Abs. 1 DSGVO).” 


Einwilligung 


Eine Einwilligung muss freiwillig, informiert, auf den bestimmten Fall bezogen und 
unmissverständlich erfolgen und nachweisbar sein (sog. informed consent, Art. 4 
Nr. 11, Art. 7 DSGVO). Die betroffene Person muss vor der Erhebung der Daten hin- 
reichend präzise Informationen in einer für sie verständlichen Art und Weise über 
die beabsichtigte Datenverarbeitung erhalten, so dass sie die Tragweite ihrer Einwil- 
ligung abschätzen kann. Hieraus folgt zudem, dass eine Einwilligung grundsätzlich 


45 Die Leitlinien zur Sicherung guter wissenschaftlicher Praxis (Kodex) vom 1.8.2019 der DFG se- 
hen in Leitlinie 17 in der Regel eine Aufbewahrung für einen Zeitraum von zehn Jahren vor. 

46 Vgl. Roßnagel 2019, 162. 

47 S. zudem die speziellen Regelungen für Datenübermittlungen in Staaten außerhalb der EU oder 
des EWR in Art. 44 ff. DSGVO. 
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für konkrete Datenverarbeitungen erteilt werden muss, weil die betroffene Person 
nur so die Reichweite seiner Erklärung überblicken kann.“® Die Einwilligung muss 
daher im Regelfall insbesondere die Kategorien der betroffenen Daten, den Verar- 
beitungszweck, eventuelle Weiterverwendungen und den Zeitpunkt der Datenlö- 
schung umfassen.“ Ausnahmsweise kann bei Datenverarbeitungen zu wissen- 
schaftlichen Zwecken aber ein geringerer Grad an Bestimmtheit genügen (sog. 
broad consent), wenn der Zweck der Datenverarbeitung zum Zeitpunkt der Datener- 
hebung noch nicht vollständig angegeben werden kann, z.B. bei Langzeitstudien.*° 

Die Einwilligung muss durch eine positive Handlung erfolgen. Daher liegt keine 
wirksame Einwilligung vor, wenn den betroffenen Personen ein Dokument mit vor- 
angekreuzten Kästchen vorgelegt wird, welche sie zur Verweigerung ihrer Einwilli- 
gung löschen müsste.” Im Falle der Verarbeitung besonders sensibler personenbe- 
zogener Daten, z.B. Gesundheitsdaten, muss die Einwilligung zudem ausdrücklich 
erfolgen (Art. 9 Abs. 2 lit. a DSGVO). Dem Verantwortlichen obliegt die Nachweis- 
pflicht, dass die betroffene Person in die Verarbeitung eingewilligt hat (Art. 7 Abs. 1 
DSGVO). 

Der Umfang der zulässigen Datenverarbeitungen hängt von der konkreten Ein- 
willigungserklärung ab - z.B. davon, ob diese nur projektinterne Datenverarbeitun- 
gen oder auch die Veröffentlichung personenbezogener Forschungsdaten, z.B. in 
FDM-Repositorien, gestattet. Bei Verwendung vorformulierter Muster” ist insbeson- 
dere darauf zu achten, diese an die konkreten Erfordernisse des Einzelfalls anzupas- 
sen. 

Die betroffene Person hat das Recht, ihre Einwilligung jederzeit zu widerrufen; 
auch hierüber ist sie zu informieren (Art. 7 Abs. 3 DSGVO). Der Widerruf wirkt erst 
ab diesem Zeitpunkt; die bis zum Widerruf erfolgte Datenverarbeitung, z.B. eine 
vorherige Publikation, bleibt rechtmäßig (Art. 7 Abs. 3 S. 2 DSGVO). Mit Ausübung 
des Widerrufsrechts muss die Datenverarbeitung grundsätzlich beendet und müs- 
sen die Daten gelöscht werden, soweit keine andere Rechtsgrundlage die weitere 
Verarbeitung der Daten gestattet (Art. 17 Abs. 1 lit. b DSGVO). Die konkreten Folgen 
dieser Regelung sind noch nicht abschließend geklärt. Im Einzelfall könnte damit 
eine Datenverarbeitung trotz des Widerrufs der Einwilligung weiterhin zulässig 


48 Vgl. Stemmer in Brink und Wolff 2020; BeckOK Datenschutzrecht, Art. 7 DSGVO Rn. 74. 

49 Vgl. Roßnagel 2019, 160. 

50 Erwägungsgrund 33 DSGVO; s. zur restriktiven Auslegung des Begriffs „bestimmte Bereiche wis- 
senschaftlicher Forschung“ im Erwägungsgrund 33 aber den Beschluss der Datenschutzkonferenz 
vom 03.04.2019, DSK 2019. 

51 Vgl. EuGH 2019, Rn. 61-62 - Verbraucherzentrale Bundesverband e. V./Planet49 GmbH. 

52 Als Bsp. s. die Informationen des VerbundFDB (https://www.forschungsdaten-bildung.de/ein- 
willigung) und der Deutschen Gesellschaft für Psychologie (Version vom 06.09.2018 in der Fassung 
vom 23.07.2020, https://zwpd.transmit.de/images/zwpd/dienstleistungen/ethikkommission/ 
0.1a_datenschutzrechtliche_empfehlungen_einwilligungforschungsvorhaben.pdf). 
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sein, wenn sie durch einen gesetzlichen Erlaubnistatbestand, z.B. zu Forschungs- 
zwecken gemäß § 27 Abs. 1 S. 1 BDSG, gestattet wird. Zudem besteht im Forschungs- 
kontext trotz des Widerrufs der Einwilligung kein Anspruch auf Léschung der Da- 
ten, wenn dies die Verwirklichung der Forschungsziele unmöglich machen oder 
ernsthaft beeinträchtigen würde (Art. 17 Abs. 3 lit. d DSGVO). 

Auch vor Inkrafttreten der DSGVO erteilte Einwilligungen haben weiterhin Be- 
stand, sofern sie der früheren Rechtslage entsprochen haben und „der Art nach“ 
mit der DSGVO vereinbar sind (Erwägungsgrund 171 DSGVO). Problematisch ist in- 
soweit aber, dass die neue Rechtslage höhere Anforderungen stellt, da nunmehr 
auch über die Widerruflichkeit der Einwilligung zu informieren ist (Art. 7 Abs. 3 
Satz 3 DSGVO), was nach früherer Rechtslage nicht erforderlich war. In Zweifelsfäl- 
len sollte mit den Datenschutzbeauftragten der jeweiligen Forschungseinrichtung 
abgestimmt werden, ob „Alt-Einwilligungen“ auch weiterhin gelten. 


Erlaubnistatbestände für Datenverarbeitungen zu Forschungszwecken 


Eine Datenverarbeitung ist auch ohne Einwilligung der betroffenen Person rechtmä- 
Big, wenn sie durch einen gesetzlichen Erlaubnistatbestand gestattet wird. Sowohl 
auf Bundes- als auch auf Landesebene bestehen spezielle Erlaubnistatbestände für 
Datenverarbeitungen zu Forschungszwecken. Ein Beispiel ist 827 Abs. 1S. 1 BDSG, 
der die Verarbeitung „sensibler“ personenbezogener Daten im Sinne des Art. 9 DS- 
GVO gestattet, 


„wenn die Verarbeitung zu diesen Zwecken erforderlich ist und die Interessen des Verantwort- 
lichen an der Verarbeitung die Interessen der betroffenen Person an einem Ausschluss der Ver- 
arbeitung erheblich überwiegen“. 


Diese Erlaubnistatbestände gelten z. T. sowohl für „sensible“ als auch für „normale“ 
personenbezogene Daten,” z. T. nur für „sensible“ Daten gemäß Art. 9 DSGVO (wie 
z.B. Gesundheitsdaten). In letzterem Falle ist daher bei Datenverarbeitungen 
durch öffentliche Forschungseinrichtungen ggf. auf die allgemeinen Erlaubnistatbe- 
stände zurückzugreifen (Art. 6 Abs. 1 lit. e DSGVO, §3 BDSG”). 

Wahrend die genannten Erlaubnistatbestande die Verarbeitung personenbezo- 
gener Daten fiir wissenschaftliche Zwecke im Allgemeinen regeln, unterliegt die 


53 S. z.B. §11 Abs. 1 HmbDSG, §17 Abs. 1 BInDSG und §13 Abs. 1 LDSG-BW. 

54 S. z.B. §27 BDSG, Art. 8 BayDSG, §13 BremDSGVOAG und § 24 Abs. 1 HDSIG. 

55 Allerdings legitimiert §3 BDSG nach der Gesetzesbegriindung (BT-Drucks. 18/11325, S. 81) ledig- 
lich Datenverarbeitungen „geringerer Eingriffstiefe“, da die Norm so allgemein gehalten ist, dass sie 
aufgrund des rechtsstaatlichen Bestimmtheitsgrundsatzes keine Grundlage für schwerwiegende 
Grundrechtseingriffe bieten kann, Wolff in Brink und Wolff 2020; BeckOK Datenschutzrecht, 83 
BDSG Rn. 16a. 
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Veröffentlichung personenbezogener Daten zusätzlichen Voraussetzungen. So be- 
stimmt z.B. §27 Abs. 4 BDSG: „Der Verantwortliche darf personenbezogene Daten 
nur veröffentlichen, wenn die betroffene Person eingewilligt hat oder dies für die 
Darstellung von Forschungsergebnissen über Ereignisse der Zeitgeschichte uner- 
lässlich ist.“ Für die Praxis des FDM bedeutet dies, dass eine Veröffentlichung per- 
sonenbezogener (Forschungs-)Daten, z.B. im Rahmen einer Publikation oder eines 
Forschungsdatenrepositoriums, nur zulässig ist, wenn die betroffene Person” — 
z.B. die jeweilige Probandin bzw. der Proband, der Interviewpartnerin bzw. Inter- 
viewpartner — eingewilligt hat, wobei sich die Einwilligung auch auf die Veröffentli- 
chung und ihre Modalitäten beziehen muss,” oder wenn die Veröffentlichung für 
das Verständnis von Forschungsergebnissen über Ereignisse der Zeitgeschichte zwin- 
gend erforderlich ist, weil z.B. die deutsche Außenpolitik nicht ohne Nennung des 
Namens des Außenministers dargestellt werden kann. Darüber hinaus ist eine Ver- 
öffentlichung von Forschungsdaten nur zulässig, wenn sie anonymisiert°® wurden. 
Insofern ist eine Veröffentlichung personenbezogener Forschungsdaten in einer 
Weise, dass sie allgemein zugänglich sind, z.B. als Open Data, nur unter sehr re- 
striktiven Voraussetzungen möglich. Wird eine Veröffentlichung personenbezoge- 
ner Forschungsdaten angestrebt, so sollte die bei der Erhebung der Daten eingehol- 
te Einwilligung auch die Veröffentlichung umfassen - ein Grund dafür, warum be- 
reits zu Beginn eines Forschungsprojekts die sorgfältige Planung des Umgangs mit 
Forschungsdaten erfolgen sollte. 

Um andererseits die Möglichkeit des Informationszugangs im Interesse der For- 
schungsfreiheit nicht zu stark einzuschränken, spricht vieles dafür, dass eine Offen- 
legung personenbezogener Forschungsdaten gegenüber einem begrenzten Empfän- 
gerkreis, die durch zusätzliche Maßnahmen wie Geheimhaltungsvereinbarungen 
abgesichert ist, keine Veröffentlichung darstellt und daher nicht durch 827 Abs. 4 
BDSG untersagt wird. Die Rechtmäßigkeit einer Einsichtnahme in Datenbestände 
durch einzelne Forschende an einem Präsenz-Arbeitsplatz oder einer Übermittlung 
von Datensätzen an Dritte richtet sich vielmehr nach 827 Abs. 1 BDSG. Daher kann 
es grundsätzlich zulässig sein, Daten auch anderen Forschenden auf diese Weise 
zur Nachnutzung zugänglich zu machen, wenn im Einzelfall die Forschungsinteres- 
sen die Interessen der betroffenen Person wesentlich überwiegen, was im konkreten 
Fall durch technische und organisatorische Maßnahmen, z.B. Geheimhaltungsver- 
pflichtungen, technische Zugangsbeschränkungen etc., abgesichert werden muss. 


56 Bei Daten mit Drittbezug, z.B. genetischen Daten, die auch Rückschlüsse auf Verwandte zulas- 
sen, wäre ggf. auch deren Einwilligung einzuholen. 

57 Vgl. Kreutzer und Lahmann 2019, 82. 

58 Zum Begriff der Anonymisierung s.o. in Abschnitt 3.1 dieses Beitrags. 

59 Vgl. Watteler und Ebel 2019, 68. 
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Wahrnehmung berechtigter Interessen 


Als weiterer Erlaubnistatbestand kommt Art. 6 Abs. 1 lit. f DSGVO in Betracht. Da- 
nach ist eine Datenverarbeitung auch ohne eine Einwilligung des Betroffenen recht- 
mäßig, wenn „die Verarbeitung [...] zur Wahrung der berechtigten Interessen des 
Verantwortlichen oder eines Dritten erforderlich (ist), sofern nicht die Interessen 
oder Grundrechte und Grundfreiheiten der betroffenen Person [...] überwiegen“. 
Auch dieser Erlaubnistatbestand verlangt eine sorgfältige Abwägung, bei der alle 
Umstände des konkreten Einzelfalles berücksichtigt werden müssen. Allerdings ist 
es dem Wortlaut nach - anders als im Rahmen des 827 Abs. 1 BDSG - bereits ausrei- 
chend, wenn die Forschungsinteressen im Verhältnis zu den Interessen des jeweili- 
gen Betroffenen zumindest gleich stark zu gewichten sind. Es spricht allerdings vie- 
les dafür, dass die Interessen der Betroffenen einer Veröffentlichung der Daten in 
der Regel entgegenstehen, so dass auf dieser Grundlage in der Regel nur projektin- 
terne Datenverarbeitungen in Betracht kommen. 

Dieser Erlaubnistatbestand gilt jedenfalls für nicht-dffentliche Stellen (82 Abs. 4 
BDSG), z.B. privatrechtlich organisierte Forschungseinrichtungen. Unklar ist, ob 
sich auch öffentliche Hochschulen auf Art. 6 Abs. 1 lit. f DSGVO stützen können, da 
die Regelung nicht für Behörden gilt (Art. 6 Abs. 1 S. 2 DSGVO) und streitig ist, ob 
die öffentlichen Hochschulen in diesem Sinne als Behörden oder als sonstige öffent- 
liche Stellen einzuordnen sind. 


3.4 Rechte der betroffenen Personen 


Die DSGVO regelt in Art. 12 ff. DSGVO umfangreiche Betroffenenrechte, um die 
Transparenz der Datenverarbeitung zu gewährleisten und die Autonomie der Einzel- 
nen zu stärken. Diese Betroffenenrechte werden allerdings z. T. unter Verhältnismä- 
Rigkeitsgesichtspunkten sowie zur Privilegierung der Forschung eingeschränkt. Al- 
lerdings entbindet dies Forschungseinrichtungen bzw. jene, die Repositorien 
betreiben, nicht von der Verpflichtung, Konzepte für den Umgang mit Auskunftsbe- 
gehren bzw. Löschkonzepte zu entwickeln. 

So sind die betroffenen Personen ausführlich über den Verantwortlichen, die 
Art und Weise sowie die Zwecke der Datenverarbeitung zu informieren (s. die Kata- 
loge der zur Verfügung zu stellenden Informationen in Art.13, Art. 14 DSGVO). Aller- 
dings wird der Verantwortliche von der Informationspflicht des Art. 14 DSGVO 
befreit, wenn ihre Erfüllung sich als unmöglich erweist oder einen unverhältnismä- 
Rigen Aufwand erfordern würde (Art. 14 Abs. 5 lit. b DSGVO). Auch das Auskunfts- 


60 Für die Anwendbarkeit auf Universitäten Assion/Nolte/Veil, in Gierschmann, Schlender, Stent- 
zel, Veil 2017, Art. 6, Rn. 124 ff.; anderer Ansicht Golla 2019, §23 Rn. 45. 


108 — Anne Lauber-Rönsberg 


recht (Art. 15 DSGVO) und der Berichtigungsanspruch hinsichtlich unrichtiger Daten 
(Art. 16 DSGVO) werden durch § 27 Abs. 2 BDSG und entsprechende landesrechtliche 
Regelungen beschrankt, soweit diese Rechte voraussichtlich die Verwirklichung der 
Forschungszwecke unmöglich machen oder ernsthaft beeinträchtigen. Das Aus- 
kunftsrecht besteht darüber hinaus auch dann nicht, wenn die Auskunftserteilung 
einen unverhältnismäßigen Aufwand erfordern würde. Sind diese Voraussetzungen 
gegeben, könnte eine Hochschule also einen Antrag einer Person auf Auskunft dar- 
über, welche personenbezogenen Forschungsdaten über sie auf einem Hochschulre- 
positorium gespeichert sind, ablehnen. Auch die Löschungsansprüche, die grund- 
sätzlich z.B. bestehen, wenn die Daten für den jeweiligen Zweck nicht mehr erfor- 
derlich sind, werden im Forschungskontext eingeschränkt (Art. 17 Abs. 3 lit. d 
DSGVO). 


3.5 Technische und organisatorische Maßnahmen zum Schutz 
der Betroffenen 


Die bzw. der für die Datenverarbeitung Verantwortliche hat angemessene techni- 
sche und organisatorische Maßnahmen zu treffen, um die betroffenen Personen zu 
schützen (Art. 24, Art. 25 DSGVO). Dies gilt umso mehr für Datenverarbeitungen für 
Forschungszwecke, die wie oben dargestellt von der DSGVO an vielen Stellen privi- 
legiert werden. Zum Ausgleich sind nach Art. 89 Abs. 1 DSGVO geeignete Garantien 
für die Rechte und Freiheiten der betroffenen Person zu treffen, um die potenziellen 
Folgen einer missbräuchlichen Datenverwendung oder Veröffentlichung für die be- 
troffenen Personen so gering wie möglich halten. 

Die DSGVO selbst nennt als Beispiel die Pseudonymisierung, um den Grundsatz 
der Datensparsamkeit umzusetzen.°' Zudem bestimmt 827 Abs. 3 BDSG, dass Daten 
grundsätzlich zu anonymisieren sind, sobald dies nach dem Forschungszweck mög- 
lich ist. Bis dahin sind die Daten zu pseudonymisieren und dürfen nur mit den Ein- 
zelangaben zusammengeführt werden, soweit der Forschungs- oder Statistikzweck 
dies erfordert. Weitere Beispiele sind die Verschlüsselung, Maßnahmen zur Über- 
prüfung, ob und von wem personenbezogene Daten eingegeben, verändert oder ent- 
fernt worden sind, und die Beschränkung des Zugangs zu den personenbezogenen 
Daten (s. 827 Abs. 1S. 2 BDSG, der auf § 22 Abs. 2 S. 2 BDSG verweist). 

Zudem ist zu beachten, dass eine Datenschutz-Folgenabschätzung durchzufüh- 
ren ist, wenn die Datenverarbeitung aufgrund der Art, des Umfangs, der Umstände 
und der Zwecke der Verarbeitung voraussichtlich ein hohes Risiko für die Rechte 
und Freiheiten der betroffenen Personen zur Folge hat (Art. 35 DSGVO).? 


61 Zur Pseudonymisierung s.o. in Abschnitt 3.1 dieses Beitrags. 
62 Vgl. Roßnagel 2019, 163 f. 
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3.6 Verantwortlichkeit und Folgen von Rechtsverstößen 
Verantwortlichkeit 


Die datenschutzrechtlichen Pflichten - z.B. zur Gewährleistung der Rechtmäßigkeit 
der Datenverarbeitung, zur Erfüllung der Informationspflichten sowie zur Durchfüh- 
rung einer Datenschutz-Folgenabschätzung - treffen den sog. Verantwortlichen. 
Dies ist die natürliche oder juristische Person, Behörde, Einrichtung oder andere 
Stelle, die über die Zwecke und Mittel der Verarbeitung von personenbezogenen Da- 
ten entscheidet (Art. 4 Nr. 7 DSGVO). 

Zum Teil wird in der Praxis die Ansicht vertreten, dass Forschende in Leitungs- 
funktionen, z.B. Hochschullehrinnen und Hochschullehrer oder Forschungsgrup- 
penleitende, selbst Verantwortliche seien, da sie aufgrund der Forschungsfreiheit 
(Art. 5 Abs. 3 GG) eigenverantwortlich über Zwecke und Mittel der Datenverarbei- 
tung entscheiden, oder dass zumindest eine gemeinsame Verantwortlichkeit gemäß 
Art. 26 DSGVO von Hochschule und Hochschullehrinnen bzw. Hochschullehrer‘? 
besteht. 

Überzeugender ist es hingegen, die Forschungstätigkeit der Forschenden, so- 
weit sie in Ausübung ihrer Dienstpflichten handeln, der Hochschule zuzurechnen, 
so dass diese im Außenverhältnis gegenüber der betroffenen Person und der Auf- 
sichtsbehörde als Verantwortliche anzusehen sind.™ Hierfür spricht, dass immer 
Menschen für eine Forschungseinrichtung handeln und dass die Tätigkeit von de- 
nen, die in Führungsfunktionen arbeiten, dadurch gekennzeichnet ist, dass ihnen 
Entscheidungsspielräume zustehen, ohne dass hieraus automatisch eine eigenstän- 
dige datenschutzrechtliche Verantwortlichkeit z.B. der Hochschulrektorin bzw. des 
Hochschulrektors oder der Kanzlerin bzw. des Kanzlers einer Hochschule abgeleitet 
würde. Zudem sind Forschende in ihren Entscheidungen über Datenverarbeitungen 
nicht vollständig frei. Vielmehr bestehen in der Regel Hochschulordnungen, die 
z.B. die Nutzung einer bestimmten Infrastruktur vorschreiben. Darüber hinaus wür- 
de die Gegenansicht zu unpraktikablen Ergebnissen führen, da die Nutzung der von 
der Hochschule zur Verfügung gestellten IT-Infrastruktur — wie Speicherplatz und 
E-Mail-System — entweder als Auftragsverarbeitung der Hochschule (Art. 28 DSGVO) 
oder als Tätigkeit in gemeinsamer Verantwortlichkeit (Art. 26 DSGVO) einzuordnen 
wäre mit der Konsequenz, dass Wissenschaftlerinnen und Wissenschaftler sowie 
Hochschule eine entsprechende Vereinbarung abschließen müssten und dass den 


63 Vgl. Schwartmann 2020, 77 ff. 

64 Ebenso Roßnagel 2019, 160. S. auch Golla und Matth& 2018, 209-211, zur Hochschullehre, die 
nur ausnahmsweise von einer eigenen Verantwortlichkeit von Lehrenden ausgehen, wenn Daten- 
verarbeitungen aufgrund einer Überschreitung der jeweiligen Aufgabenzuweisung nicht der Hoch- 
schule zurechenbar ist. 
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Forschenden im Falle der Auftragsverarbeitung sogar Kontrollbefugnisse und 
-pflichten zustiinden. 

Daher ist es überzeugender, dass die Verantwortlichkeit fiir Datenverarbeitun- 
gen in Ausübung von Dienstpflichten - nicht dagegen bei einer Überschreitung 
dienstlicher Befugnisse — bei der Forschungseinrichtung und nicht bei den einzel- 
nen Forschenden liegt. Es liegt daher im Interesse der Forschungseinrichtung, ge- 
eignete Schulungs- und Beratungsangebote sicherzustellen, um datenschutzrechtli- 
che Verstöße zu vermeiden. 


Sanktionen bei Datenschutzverstößen 


Verstöße gegen datenschutzrechtliche Vorgaben können zum einen Maßnahmen 
der Aufsichtsbehörde nach sich ziehen (Art. 58 DSGVO), die bis zur sofortigen Ein- 
stellung des Forschungsprojekts und der Löschung aller rechtswidrig erhobenen 
Daten führen können. Gegen privatrechtlich organisierte Forschungseinrichtungen, 
nicht aber gegenüber öffentlichen Stellen (843 Abs. 3 BDSG), können auch Bußgel- 
der verhängt werden (Art. 83 DSGVO). Darüber hinaus stehen auch den in ihrem 
Recht auf Datenschutz verletzten Personen Ansprüche gegen die Verantwortlichen, 
z.B. auf Schadensersatz, zu (Art. 82 DSGVO). 

Für die beteiligten Wissenschaftlerinnen und Wissenschaftler können sich zu- 
dem dienstrechtliche (und in Extremfällen strafrechtliche gem. §42 BDSG) Konse- 
quenzen ergeben. Nicht außer Acht zu lassen sind außerdem etwaige Reputations- 
verluste bei groben Verstößen gegen das Datenschutzrecht. 


3.7 Postmortaler Schutz durch Persönlichkeitsrechte 


Für Daten Verstorbener gilt das Datenschutzrecht hingegen nicht (s. Erwägungs- 
grund 27 DSGVO). Insoweit kommt nur ein persönlichkeitsrechtlicher Schutz in Be- 
tracht, insbesondere bei Abbildungen von Personen das Recht am eigenen Bild (§ 22 
KUG“), das einen postmortalen Schutz für 10 Jahre nach dem Tod des Abgebildeten 
gewährt (822 S. 3 KUG). Innerhalb dieses Zeitraums sind eine Veröffentlichung und 
Verwertung daher grundsätzlich nur mit Zustimmung der abgebildeten Person bzw. 
ihrer Angehörigen zulässig. Auch ohne Zustimmung zulässig sind aber Veröffentli- 
chungen u.a. von Bildnissen aus dem Bereich der Zeitgeschichte sowie von Abbil- 
dungen, auf denen Personen nur als „Beiwerk“ neben einer Landschaft oder sonsti- 
gen Örtlichkeit erscheinen oder Personen bei ihrer Teilnahme an einer in der Öffent- 


65 Der Text des Kunsturheberrechtsgesetzes (KUG) kann unter https://www.gesetze-im-internet. 
de/kunsturhg/ abgerufen werden. 
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lichkeit stattfindenden Versammlung o. A. zeigen, sofern hierdurch die berechtigten 
Interessen der abgebildeten Person bzw. ihrer Angehörigen nicht verletzt werden 
(823 KUG). 


Praxistransfer 


Angesichts der Komplexität der rechtlichen Rahmenbedingungen sind Wissen- 
schaftlerinnen und Wissenschaftler auf eine unterstützende Infrastruktur der For- 
schungseinrichtung angewiesen, um ein sachgerechtes und rechtskonformes FDM 
betreiben zu können.“ Erforderlich sind zum einen allgemeine Schulungs- und In- 
formationsangebote, die allerdings eine rechtliche Prüfung des Einzelfalls nicht ent- 
behrlich machen, so dass zum anderen auch die Möglichkeit einer qualifizierten 
und umfassenden rechtlichen Beratung bei komplexen Sachverhalten gegeben sein 
sollte. 

Dies wirft die Frage auf, wie Schulungs- und Informationsangebote und Bera- 
tungsangebote in bestehende Infrastrukturen integriert werden können und wem 
die rechtliche Beratung zu konkreten Fragestellungen obliegen soll. Ansprechpart- 
nerinnen und Ansprechpartner für juristische Fragestellungen sind zum einen das 
Justiziariat bzw. die Rechtsabteilung und zum anderen die Datenschutzbeauftragten 
der Forschungseinrichtungen. Einige Bundesländer haben mittlerweile auch zentra- 
le Ansprechstellen geschaffen, z.B. die ZENDAS in Baden-Württemberg und die 
Stabsstelle IT-Recht der staatlichen bayerischen Hochschulen und Universitäten. In 
grundsätzlichen Fragestellungen kommt auch den Datenschutzaufsichtsbehörden 
selbst eine Beratungsfunktion zu. 

Zudem haben mittlerweile einige Forschungseinrichtungen zentrale Ansprech- 
oder Kontaktstellen für Fragen des FDM etabliert, deren Beratung z.T. einfach gela- 
gerte juristische Fragen einbezieht.° Für einen solchen umfassenden First-Level- 
Support spricht, dass auf diese Weise ein niederschwelliges Unterstützungsangebot 
auch zu juristischen Fragestellungen ermöglicht wird. Zudem ist es fraglich, ob eine 
Beschränkung auf allgemeine Informationen über die Rechtslage, aber ohne rechtli- 
che Beratung zielgruppengerecht und praktikabel wäre, da bereits eine Einschät- 
zung der konkreten Anfrage - z.B. ob bestimmte Daten personenbezogen sind - 
eine Rechtsberatung darstellen kann. Allerdings setzt eine rechtliche Beratung 
durch die zentrale Anlaufstelle eine ausreichende Qualifizierung der Mitarbeiterin- 
nen und Mitarbeiter voraus. Zudem sollte eine solche Aufgabenzuweisung klar gere- 
gelt sein, um evtl. Haftungsrisiken für die Mitarbeitenden der zentralen Anlaufstelle 


66 S. auch Hartmann 2019, 11. 
67 Vgl. Ostendorff und Linke 2019, 719. 
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zu vermeiden. Dariiber hinaus sollte eine enge inhaltliche Abstimmung mit dem 
Justiziariat und den Datenschutzbeauftragten erfolgen, um eine einheitliche Hand- 
habung sowie eine Weiterleitung komplexer Sachverhalte an die Rechtsabteilung 
bzw. die Datenschutzbeauftragten sicherzustellen. 


Fazit 


Zusammenfassend ist festzustellen, dass die rechtlichen Rahmenbedingungen des 
FDM durch eine Vielzahl einzelner Rechtsgebiete — wie das Urheberrecht, das Ar- 
beits-/Dienstrecht und das Datenschutzrecht — bestimmt werden. Allerdings erge- 
ben sich Rechtsunsicherheiten zum einen daraus, dass eine rechtliche Beurteilung — 
z.B. die urheberrechtliche Schutzfähigkeit, der Personenbezug einzelner For- 
schungsdaten oder der Umfang einer vertraglichen Geheimhaltungsabrede - nur 
unter Berücksichtigung der Umstände des jeweiligen Einzelfalls möglich ist, und 
zum anderen daraus, dass sich bislang weder zur DSGVO noch zu den arbeits- und 
dienstrechtlichen Rahmenbedingungen eine gesicherte Rechtsprechung etabliert 
hat. Angesichts dieser Rechtsunsicherheiten sollten rechtliche Aspekte von Beginn 
eines Forschungsprojekts an im Rahmen des FDM berücksichtigt werden, um even- 
tuelle rechtliche Risiken soweit wie möglich zu minimieren. 

So sollte aus datenschutzrechtlicher Sicht frühzeitig u. a. geklärt werden, inwie- 
weit die Forschungsdaten einen Personenbezug aufweisen, unter welchen Voraus- 
setzungen sie erhoben, verarbeitet oder veröffentlicht werden dürfen und welche 
technischen und organisatorischen Maßnahmen, z.B. eine Anonymisierung oder 
Pseudonymisierung, Geheimhaltungsverpflichtungen, Maßnahmen zur Gewährleis- 
tung von Datensicherheit etc., möglich und erforderlich sind. Eine Veröffentlichung 
personenbezogener Forschungsdaten ist nach den derzeitigen Vorgaben nur mit Zu- 
stimmung des Betroffenen zulässig, wenn dies nicht ausnahmsweise zur Darstel- 
lung von Forschungsergebnissen über zeitgeschichtliche Ereignisse unerlässlich ist. 

Die Frage, ob den die Daten erhebenden Forschenden, der Forschungsgruppen- 
leitung oder der Forschungseinrichtung die Entscheidungsbefugnis über den Um- 
gang mit Forschungsdaten zustehen soll, wird nur bedingt durch die urheber- und 
arbeitsrechtlichen Vorgaben beantwortet, sondern liegt weitgehend in der Dispositi- 
onsbefugnis der betroffenen Parteien. Daher empfiehlt es sich, im Vorfeld entspre- 
chende Absprachen und Vereinbarungen zu treffen. Hilfreich wären zudem allge- 
meine Rahmenvorgaben in den Satzungen zur guten wissenschaftlichen Praxis oder 
den Forschungsdaten-Richtlinien der Forschungseinrichtungen, die ggf. durch spe- 
zifischere Vereinbarungen für einzelne Forschungsvorhaben konkretisiert werden. 
Hierin sollte u.a. geregelt werden, wem welche Nutzungsbefugnisse (zur internen 
Nutzung, Veröffentlichung etc.) zustehen und inwieweit im Einzelfall Einschrän- 
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kungen bestehen, z.B. weil Geheimhaltungsvereinbarungen einer Datennutzung 
entgegenstehen. 
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Hermann Rösch 
1.5 Forschungsethik und Forschungsdaten 


Abstract: Zunächst werden Funktionen und Stellenwert von Ethik in der modernen 
Gesellschaft erläutert, ehe Forschungsethik als die Bereichsethik behandelt wird, in 
deren Zuständigkeit das Thema Forschungsdaten fällt. Hier stehen ethische Fragen 
im Vordergrund, die sich im Zusammenhang mit Erhebung von Forschungsdaten 
stellen. Anschließend werden die ethischen Implikationen des Managements und 
der Publikation von Forschungsdaten behandelt. Zwei Ebenen sind zu unterschei- 
den: Zum einen berühren Forschungsdaten das Themenfeld „Gute wissenschaftli- 
che Praxis“, zum anderen geht es um die Verantwortung hinsichtlich des Gegen- 
standes der Forschung und die möglichen Auswirkungen auf beteiligte Individuen, 
Unternehmen und Institutionen sowie die Gesellschaft als Ganzes. Grundsätzlich ist 
festzuhalten, dass die Beschäftigung mit Forschungsdaten unter ethischen Aspek- 
ten noch in den Anfängen steckt. 


Einleitung 


Das System der Wissenschaftskommunikation und das Spektrum der Forschungs- 
methoden sind durch den digitalen Wandel fundamental verändert worden. Einen 
völlig neuen und gesteigerten Stellenwert haben in diesem Zusammenhang For- 
schungsdaten erhalten. Die Auseinandersetzung mit diesem Phänomen konzentriert 
sich bislang verständlicherweise vorwiegend auf pragmatische Aspekte des Um- 
gangs mit Forschungsdaten. Dabei geht es darum, Forschungsdaten als einen eigen- 
ständigen Typus wissenschaftlicher Publikationen zu verstehen und die Verzah- 
nung von klassischen Wissenschaftspublikationen mit den zugehörigen, dauerhaft 
archivierten Forschungsdaten zur Regel zu machen, damit die daraus abgeleiteten 
Forschungsergebnisse verifiziert werden können. Dafür müssen nicht nur Standards 
für die Erschließung durch Metadaten entwickelt werden, sondern auch Infrastruk- 
turen, die eine sichere Speicherung und Langzeitarchivierung ebenso ermöglichen 
wie die Recherche, den Zugriff und die Nachnutzung. 

Aufgrund der Vielzahl der zu lösenden Probleme ist die Auseinandersetzung 
mit den ethischen Fragen, die sich im Zusammenhang mit Forschungsdaten stellen, 
noch unterentwickelt.' Entsprechende Überlegungen sind als Teil der Forschungs- 
ethik zu begreifen, die wiederum eine Teilmenge der Wissenschaftsethik darstellt. 


1 Einige einführende Hinweise finden sich in der Rubrik „Ethik und gute wissenschaftliche Praxis“ 
auf der seit Mai 2018 gepflegten Plattform forschungsdaten.info. Vgl. Forschungsdaten.info o.J. 


8 Open Access. © 2021 Hermann Rösch, publiziert von De Gruyter. [Ea] Dieses Werk ist lizenziert unter der 
Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-006 
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Es geht im Folgenden sowohl um ethische Aspekte hinsichtlich der Entstehung von 
Forschungsdaten als auch um solche des Forschungsdatenmanagements (FDM), 
also der Speicherung, der Veröffentlichung und der Nachnutzung. Dabei kreisen die 
Überlegungen um das Themenfeld „Gute wissenschaftliche Praxis“? sowie um die 
Verantwortung, die sich aufgrund des Forschungsgegenstandes wie auch der For- 
schungsmethoden und ihrer Auswirkungen ergibt. 


1 Ethik 


Ethos als Gegenstand von Ethik umfasst ein „empirisch zugängliches, normatives 
Gefüge aus Rollenerwartungen, Gratifikationen und Sanktionen, handlungsleiten- 
den Überzeugungen, Einstellungen, Dispositionen und Regeln, die die Interaktion 
der betreffenden Referenzgruppe [...] leiten“?. In dieser Funktion hat Ethik eindeutig 
Konjunktur: So hat sich in den vergangenen Jahren und Jahrzehnten eine Vielzahl 
sogenannter Bereichsethiken ausdifferenziert. Dazu zählen etwa Medienethik, Um- 
weltethik, Wirtschaftsethik, Technikethik, Tierethik, Wissenschaftsethik, Sportethik 
oder Informationsethik. Institutionen formulieren ethische Grundsätze und Berufs- 
verbände verabschieden Berufsethiken. Darin werden die Grundwerte zusammenge- 
stellt, an denen die Referenzgruppe ihr Handeln ausrichten soll. Regierungen, For- 
schungseinrichtungen und Verbände richten Ethikkommissionen ein, welche den 
Auftrag haben, ethische Richtlinien zu erarbeiten, Forschungsvorhaben zu beurtei- 
len und bei Konflikten oder Dilemmata Lösungsvorschläge zu unterbreiten. Auch 
die Bundesregierung hat einen Ethikrat berufen,” der Stellungnahmen und Empfeh- 
lungen erarbeitet zu Themen wie Anonyme Kindesabgabe, Stammzellforschung, In- 
tersexualität, Präimplantationsdiagnostik, Gendiagnostik, Patientenwohl, Big Data 
usw. 

Die wachsende Nachfrage nach Ethik als Orientierungsinstrument hat mehrere 
Ursachen. Eine bedeutende Rolle spielt ohne Zweifel die nachlassende Bindungs- 
kraft religiöser Wertesysteme, die in Europa über Jahrhunderte hinweg das Monopol 
zur Setzung und Verwaltung des Normen- und Wertereservoirs besaßen. Mindestens 
ebenso wichtig aber ist die Entwicklungsdynamik, auf deren Grundlage die moder- 
ne Gesellschaft, gestützt auf Wissenschaft und Technik, nicht nur Wandel zur Kon- 
stante macht, sondern darüber hinaus anhaltende Entwicklungsbeschleunigung zur 
Grunderfahrung. Neue Techniken führen zu bislang unbekannten Handlungsoptio- 
nen, die ethisch bewertet werden müssen. Erinnert sei an neue Fragestellungen 
etwa aus dem biomedizinischen Bereich wie Stammzellforschung, Genforschung 


2 Vgl. Deutsche Forschungsgemeinschaft 2019. 
3 Nida-Rümelin 1996, 780. 
4 Vgl. Deutscher Ethikrat o.J. 
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oder Praxis der Organtransplantation. Aber auch aus der Verkehrstechnik oder der 
Informationstechnik lassen sich Beispiele anführen. Welche Präferenzen sollen dem 
Algorithmus eines selbststeuernden Fahrzeugs zugewiesen werden, wenn es bei ei- 
ner bevorstehenden Kollision gilt, verschiedene Schadensabwägungen zu treffen? 
Für den Informationssektor sei an die aktuelle Frage erinnert, wie weit Datenspu- 
ren, die bei elektronischen Bezahlvorgängen, der Nutzung von Mobiltelefonen, bei 
der Navigation im Internet oder der Nutzung Sozialer Netzwerke entstehen, von 
Dritten gespeichert und zwecks Profilbildung zusammengeführt werden dürfen, um 
dann kommerziell verwertet zu werden oder polizeilicher Überwachung zu dienen. 

Ethik hat zum Ziel, Wertestandards zu etablieren und bei der Suche nach mora- 
lisch vertretbarem Handeln Orientierung zu verschaffen. Aufgabe der ethischen Re- 
flexion ist es, in Abwägung ethischer Grundwerte und Standards herauszufinden, 
was in einer konkreten Entscheidungssituation als richtig bzw. gut und was als 
falsch angesehen werden kann. Ethik ist also die Reflexionstheorie des wertbezoge- 
nen, d.h. moralischen Handelns. 

In der Praxis werden ethische Überlegungen unter Verweis auf geltendes Recht 
nicht selten gar nicht erst angestellt. Damit wird jedoch der Eigenwert von Ethik ver- 
kannt, denn Ethik ist dem Recht vorgelagert und geht zugleich darüber hinaus. 
Idealerweise werden rechtliche Regelungen, sofern sie einen Wertbezug tangieren, 
auf der Grundlage ethischer Grundwerte festgelegt. In der Realität aber kann durch- 
aus der Fall eintreten, dass ethisch gebotene Handlungen gegen Gesetze verstoßen. 
Und umgekehrt ist längst nicht alles, was legal ist, auch ethisch akzeptabel. So ist 
es rechtlich nicht zu beanstanden, wenn eine Autorin bzw. ein Autor einer wissen- 
schaftlichen Publikation Texte eines urheberrechtsfreien Werkes übernimmt, ohne 
die Quelle anzugeben. Nach den Grundsätzen guter wissenschaftlicher Praxis aber 
wäre dies ein eindeutiger Verstoß gegen das Wissenschaftsethos, der als Plagiaris- 
mus zu bewerten wäre. Ethik, in diesem Fall Wissenschaftsethik, kann also auch 
auf Verpflichtungen verweisen, denen nicht notwendig Rechte entsprechen müssen. 
Es reicht daher nicht aus, wenn etwa im Zusammenhang mit Forschungsdaten 
darauf hingewiesen wird, dass die Vorgaben des deutschen und europäischen Da- 
tenschutzrechtes einzuhalten seien. Es müssen darüber hinausgehende ethische 
Überlegungen angestellt werden, ob die Effekte, die von der Bereitstellung perso- 
nenbezogener Daten für die Betroffenen zu erwarten sind, auch ethisch vertretbar 
sind bzw. welche praktischen Empfehlungen und Schritte auf Basis dieser Überle- 
gungen abzuleiten sind. 


2 Forschungsethik und Forschungsdaten 


Die Begriffe Wissenschaftsethik und Forschungsethik werden häufig synonym ge- 
braucht. Eine solche Unschärfe ist jedoch wenig hilfreich. Forschungsethik sollte 
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vielmehr als Teilmenge der umfassenderen Wissenschaftsethik verstanden werden.’ 

Dies wird deutlich, wenn mit Nida-Rümelin drei Dimensionen von Wissenschaft un- 

terschieden werden:® 

— Wissenschaft als Fundus aller Theorien und Hypothesen, die auf der Grundlage 
wissenschaftlicher Methodik entstanden sind und für wahr gehalten werden 
können, jedoch aufgrund ihrer prinzipiellen Falsifizierbarkeit einem steten 
Wandel unterworfen sind. 

— Wissenschaft als besondere Praxis, die mittels disziplinspezifischer Forschungs- 
methoden nach Erkenntnis strebt und die so gewonnenen Theorien und Hypo- 
thesen den Validierungs- bzw. Falsifizierungsprozessen der Scientific Commu- 
nity aussetzt. 

— Wissenschaft als gesellschaftliches Subsystem, das nicht nur „Berufsfelder an- 
bietet, Bürokratien beschäftigt, Institutionen etabliert, öffentliche Mittel bean- 
sprucht“,’ sondern das vor allem in hochindustrialisierten Ländern die volks- 
wirtschaftliche Produktivität und damit auch die Konkurrenzfähigkeit in globa- 
lisierten Wirtschaftsräumen maßgeblich beeinflusst. 


Während Wissenschaftsethik alle drei Dimensionen umfasst, bezieht sich For- 
schungsethik vorwiegend auf den zweiten Aspekt, die Forschung. Zur Wissen- 
schaftsethik gehören mithin Fragen, die sich grundlegend mit der Funktion von 
Wissenschaft auseinandersetzen, mit akademischer Lehre befassen oder auf die In- 
formationspflicht gegenüber der interessierten Öffentlichkeit, der Wissenschafts- 
journalistik und den politisch-gesellschaftlichen Instanzen beziehen.® Ein zentrales 
Thema der Wissenschaftsethik ist die Verantwortung für die Folgen, die sich aus 
der Umsetzung wissenschaftlicher Forschungsergebnisse in technische, ökonomi- 
sche, politische, militärische und gesellschaftliche Praxis ergeben. Dieser Verant- 
wortungsaspekt spielt allerdings auch in der Forschungsethik eine Rolle, vor allem 
wenn es um das Forschungsdesign geht. 

Forschungsethik hat nur den Teil der Wissenschaftsethik zum Gegenstand, in 
dem es um den Forschungsprozess geht. Dazu gehören wie erwähnt das For- 
schungsdesign, der Forschungsprozess und die Kommunikation der Forschungser- 
gebnisse in der Scientific Community.’ In den Sozial- und Wirtschaftswissenschaf- 
ten findet sich z.T. ein deutlich engerer Begriff: Dort wird Forschungsethik häufig 
auf die Beziehung zwischen Forschenden und Beforschten reduziert, d.h. auf die 


5 Vgl. Viebrock 2015, 31. 

6 Vgl. Nida-Rümelin 1996, 788. 

7 Nida-Rümelin 1996, 788. 

8 Vgl. Nida-Rümelin 1996, 790. 

9 Ohne Zweifel ist die Scientific Community der erste Adressat, doch findet darüber hinaus ein 
Transfer von Forschungsergebnissen in Wirtschaft und Gesellschaft statt. Dies gilt selbstverständ- 
lich auch für die Wissenschaftsbürokratie, vor allem sofern diese etwa als Drittmittelgeber auftritt. 
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„Risiken und Belastungen, die durch die Beteiligung an und die Durchführung von 
empirischer sozialwissenschaftlicher Forschung entstehen können“.!® Naheliegen- 
der erscheint es hingegen, alle Phasen des Forschungsprozesses als Gegenstand 
von Forschungsethik zu betrachten, von der Wahl des Themas, über die Erkenntnis- 
ziele und die Verfahren der Datenerhebung und -auswertung bis hin zu Fragen der 
Publikation und Nachnutzung." Im Zentrum steht also die ethische Reflexion der 
Werte und Normen, die das Forschungshandeln leiten sollten.’* Die Auswahl der 
Themenstellung und die Festlegung des methodischen Vorgehens sind ohne Zweifel 
herausragende Gegenstände forschungsethischer Reflexion. Zuerst sollte also die 
Frage gestellt werden, ob die geplanten Versuche tatsächlich unumgänglich sind. 
Ferner geht es um die Abwägung möglicher Risiken und um Maßnahmen zur Prä- 
vention möglicher Schadensfolgen. Grundsätzlich lässt sich Forschungsethik in drei 
Bezugsbereiche unterteilen: 
- die wissenschaftsinterne Sphäre: Ethos der epistemischen Rationalität, 
- die Verantwortung für die am Forschungsprozess als Gegenstand beteiligten 
Menschen, Institutionen, Tiere und Objekte sowie 
- die Verantwortung gegenüber Gesellschaft und Umwelt. 


2.1 Die wissenschaftsinterne Sphäre: Ethos der epistemischen 
Rationalität 


Den wissenschaftsinternen Bereich nennt Nida-Rümelin das Ethos der epistemi- 
schen (erkenntnistheoretischen) Rationalität.” Er stützt sich dabei auf die bereits 
von Robert Merton formulierten vier Prinzipien des wissenschaftlichen Ethos: Uni- 
versalismus, Kommunismus, Uneigennützigkeit und organisierten Skeptizismus, 
hebt im gegebenen Zusammenhang jedoch die Kategorien Gemeinbesitz und Uni- 
versalismus besonders hervor." Beide bedingen einander. Wissenschaftliche Aussa- 
gen müssen sich prinzipiell kritischen Prüfungsversuchen aussetzen, damit sie be- 
gründet bestätigt werden und den Status universeller Geltung erlangen oder wider- 
legt werden können. Der Status universeller Geltung gilt prinzipiell solange, bis 
eine Widerlegung erfolgt ist. Wissenschaftliche Theorien müssen daher allgemein 
zugänglich sein und jederzeit für Überprüfungen bereitstehen. Daraus ergibt sich 
eine Reihe von Regeln, die der Wissenschaftsethik und der Forschungsethik glei- 
chermaßen zugrunde liegen: Erkenntnisse aus Wissenschaft und Forschung müssen 


10 Kämper 2016, 2. 

11 Vgl. Unger 2014, 16. 

12 Vgl. Rat für Sozial- und Wirtschaftsdaten 2017, 15. 
13 Vgl. Nida-Rümelin 1996, 781. 

14 Vgl. Nida-Rümelin 1996, 781-782. 


120 —— Hermann Rösch 


publiziert und damit allgemein zugänglich gemacht werden. Zu beachten sind dabei 
die disziplinspezifischen Zitationskonventionen und die Offenlegung aller Quel- 
len.” Vor allem in den Experimentalwissenschaften inkludiert „Publikation“ 
mittlerweile auch die Bereitstellung der zugehörigen Forschungsdaten. Die Zuver- 
lässigkeit der Daten und Argumente ist nur überprüfbar, wenn der gesamte For- 
schungsprozess transparent ist und Experimente replizierbar sind. In diesem Zu- 
sammenhang wird im Übrigen klar, dass die ethische Auseinandersetzung mit For- 
schungsdaten Teil der Forschungsethik ist. 

Je häufiger Publikationen gelesen und die zugehörigen Forschungsdaten zur 
kritischen bzw. experimentellen Überprüfung herangezogen werden, desto zuver- 
lässiger können Fehler und Fälschungen aufgedeckt werden. In den vergangenen 
Jahren haben diverse Fälle von Wissenschaftsbetrug für Aufsehen gesorgt. Dabei ist 
nicht nur an den Nachweis von Plagiarismus in den Doktorarbeiten prominenter Po- 
litiker wie Karl-Theodor zu Guttenberg oder Annette Schavan zu denken, die Anfang 
der 2010er Jahre zum Entzug der Doktorgrade führten; als besonders schockierend 
wurde in Deutschland 1997 die Nachricht wahrgenommen, dass knapp 100 Publika- 
tionen eines Ulmer Krebsforschungsteams Datenfälschungen und verzerrte Darstel- 
lungen enthielten.” Die Deutsche Forschungsgemeinschaft (DFG) hat dies zum An- 
lass genommen, um 1998 eine Denkschrift „Sicherung guter wissenschaftlicher Pra- 
xis“ als Grundlage der Selbstregulierung zu veröffentlichen, die 2013 leicht und 
2019 gründlich überarbeitet wurde.'® Auch darin wird darauf hingewiesen, dass der 
Umgang mit Forschungsdaten eine Schlüsselrolle für die Verwirklichung guter wis- 
senschaftlicher Praxis bzw. bei Verstößen gegen diese Prinzipien spielt. 

Die Hauptformen des Wissenschaftsbetrugs werden mit der Triade FFP angege- 
ben: Fabrikation, Falsifikation und Plagiat.” Fabrikation bezeichnet „Forschungser- 
gebnisse“, die frei erfunden worden sind. Unter Falsifikation versteht man die vor- 
sätzliche Fälschung und manipulative Verzerrung von Daten. Dazu gehören die be- 
wusst verzerrende Gewichtung von Daten, der Ausschluss von Daten, die dem 
Erkenntnisinteresse zuwiderlaufen und die absichtliche Beseitigung von For- 
schungsdaten mit dem Ziel, eine Überprüfung der Ergebnisse zu erschweren. Plagia- 
rismus bezeichnet die Übernahme von Ideen, Daten, Formulierungen, Texten ohne 
Verweis auf die Quelle. Um gute wissenschaftliche Praxis auf Seiten der Herausge- 
benden wissenschaftlicher Zeitschriften zu verbessern hat das Committee on Publi- 
cation Ethics (COPE) nicht nur „Retraction Guidelines“ formuliert, sondern dar- 


15 Vgl. dazu auch Kaminsky und Mayerle 2012, 21. 

16 Vgl. Elger und Engel-Glatter 2014, 30. 

17 Vgl. Viebrock 2015, 13. 

18 Vgl. Deutsche Forschungsgemeinschaft 2019. 

19 Vgl. dazu und zum Folgenden Elger und Engel-Glatter 2014, 25-26. 
20 Vgl. Committee on Publication Ethics 2019. 
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über hinaus Online-Tutorials zu den diversen Aspekten,” Fallstudien mit ethischer 
Bewertung zur Übung und Ablaufszenarien („Flow charts“)? zusammengestellt. Ei- 
nen umfassenden „Code of Conduct“ für Integrität in der Forschung hat der Dach- 
verband europäischer Wissenschaftsakademien 2018 verabschiedet. Darin werden 
sowohl die positiven Wertbezüge (Zuverlässigkeit, Ehrlichkeit, Rechenschaftspflicht 
für die Forschungsarbeit usw.) als auch Verstöße gegen die Integrität von For- 
schung (FFP) ausführlich dargestellt. Ein eigener Abschnitt befasst sich mit dem 
Thema „Datenpraktiken und -management“.? Weitere Guidelines, Checklisten, Vor- 
lagen für Policies und sonstige Materialien zur Ethik im Umfeld wissenschaftlichen 
Publizierens wurden von Verlagen™ sowie diversen Zusammenschlüssen von Her- 
ausgeberinnen und Herausgebern entwickelt und bereitgestellt.” 


2.2 Die Verantwortung für die am Forschungsprozess als Gegen- 
stand beteiligten Menschen, Institutionen, Tiere und Objekte 


Der zweite Bereich gehört insofern nicht zum wissenschaftsinternen Sektor, als die 
involvierten Menschen, Institutionen, Tiere und Objekte nur für die Dauer der Da- 
tenerhebungen und Experimente Teil des Forschungsprozesses sind. Die Folgen ih- 
rer Beteiligung aber wirken über jenen Zeitraum hinaus und damit auch über die 
Sphäre der Wissenschaft. Aufgrund dieser Divergenz liegt die Verantwortung für die 
möglichen Folgen bei den Forschenden. Besonders brisant sind Forschungsprojek- 
te, in denen es um Versuche am und mit Menschen geht, um Tierversuche oder um 
Arbeit an bzw. mit wertvollen Materialien, die dadurch vernichtet und geschädigt 
werden können. Die folgenden Überlegungen konzentrieren sich auf Forschungs- 
projekte, in denen Menschen als Probandinnen und Probanden beteiligt sind. Be- 
sonders in den Blick geraten daher vor allem Forschungsprojekte der Medizin, der 
Psychologie und weiterer Wissenschaften, wie jener der Heil- und Therapieberufe, 
der Pädagogik, der Soziologie und der Wirtschaftswissenschaft. 

Ihre Folgeverantwortung müssen Forschende bereits in ihre Vorüberlegungen 
zum Forschungsdesign und zum methodischen Vorgehen einbeziehen. Daher spie- 
len ethische Aspekte schon bei der Planung der Datenerhebung eine Rolle. Unbe- 
stritten ist dabei natürlich, dass dies unter disziplinspezifischen Gesichtspunkten 
extrem variieren kann. Forschungsdaten, die z.B. bei astrophysischer Forschung 
entstehen, haben nachvollziehbarerweise ganz andere ethische Implikationen als 


21 Vgl. Committee on Publication Ethics o. J.b. 

22 Vgl. Committee on Publication Ethics o. J.a. 

23 Vgl. All European Academies 2018. 

24 Vgl. etwa Wiley 2014. 

25 Vgl. etwa European Association of Science Editors 0.J. sowie Council of Science Editors 2018. 
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z.B. jene, die bei Untersuchungsreihen anfallen, in denen die Wirkung von Medika- 
menten an Menschen überprüft wird oder die im Rahmen qualitativer Sozialfor- 
schung durch Befragung bestimmter Zielgruppen erzeugt werden. 

Insbesondere wenn Menschen als Probandinnen und Probanden, Beobachtete 
oder Befragte beteiligt sind, haben forschungsethische Reflexionen einen hohen 
Stellenwert. Zu den obersten Prinzipien gehören Risikoabwägung und Schadensver- 
meidung, Freiwilligkeit sowie Wahrung der Persönlichkeitsrechte, darunter allem 
voran der Schutz der Gesundheit und der Privatheit. 

Datenschutzrechtliche Folgen müssen vor allem bei wirtschaftswissenschaftli- 
chen Forschungen auch im Hinblick auf Institutionen, Betriebe und Unternehmen 
angestellt werden. So können Daten, die im Zuge von Forschungsprojekten entste- 
hen, als Betriebsgeheimnis angesehen werden, deren Veröffentlichung die Markt- 
stellung und die Erfolgsaussichten eines Unternehmens in beträchtlichem Maße be- 
einträchtigen könnten. 

Mögliche Risiken und Schäden für die Beteiligten müssen antizipiert und so ge- 
ring wie möglich gehalten sowie transparent dargestellt werden. Die Teilnahme an 
Studien muss freiwillig sein, ihr muss eine ausführliche Aufklärung über Ziele, Me- 
thoden und mögliche Folgen vorausgehen.”° Dabei muss auch über die Behandlung, 
Sicherung, Speicherung und Nutzung der im Laufe des Forschungsprozesses entste- 
henden Forschungsdaten umfassend informiert werden. Erst wenn auf dieser 
Grundlage die Bereitschaft zur Teilnahme erklärt wird, kommt ein ethisch und in 
vielen Fällen auch rechtlich erforderlicher „informed consent“ bzw. eine informierte 
Einwilligung zustande. Weitere Überlegungen zu dieser Problematik sowie einige 
Beispiele von Musterformularen für Einverständniserklärungen sind im Auftrag des 
Committee on Publication Ethics von Virginia Barbour zusammengestellt worden.” 

Zuerst formuliert wurde das Prinzip der informierten Einwilligung 1947 im Zuge 
der Auseinandersetzung mit den menschenverachtenden medizinischen Versuchen, 
die während des Nationalsozialismus in Deutschland durchgeführt worden sind. Im 
Anschluss an die Nürnberger Ärzteprozesse 1946/1947, in denen Ärzte und Zahnärz- 
te aufgrund ihrer Beteiligung an Experimenten mit KZ-Gefangenen und Euthanasie- 
morden angeklagt worden waren, stellte der US-Militärgerichtshof medizin- bzw. 
forschungsethische Grundsätze für Versuche am Menschen zusammen, den sog. 
Nürnberger Kodex.” Im ersten von insgesamt zehn Abschnitten heißt es dort: 


1. Die freiwillige Zustimmung der Versuchsperson ist unbedingt erforderlich. Das heißt, daß 
die betreffende Person [...] das betreffende Gebiet in seinen Einzelheiten hinreichend kennen 
und verstehen muß, um eine verständige und informierte Entscheidung treffen zu können. Die- 
se letzte Bedingung macht es notwendig, daß der Versuchsperson vor der Einholung ihrer Zu- 


26 Vgl. Unger 2014, 19. 
27 Vgl. Barbour 2018. 
28 Vgl. Schnell und Dunger 2018, 23. 
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stimmung das Wesen, die Lange und der Zweck des Versuches klargemacht werden; sowie die 
Methode und die Mittel, welche angewendet werden sollen, alle Unannehmlichkeiten und Ge- 
fahren, welche mit Fug zu erwarten sind, und die Folgen für ihre Gesundheit oder ihre Person, 
welche sich aus der Teilnahme ergeben mögen.” 


Die Forschenden müssen also den Probandinnen und Probanden ihr Vorhaben 
nach bestem Wissen umfassend und verständlich erläutern. Die Betroffenen wieder- 
um müssen ausreichend Zeit haben, um sich eine Meinung bilden zu können und 
sich im Bedarfsfall von Dritten beraten zu lassen.’ Selbst bei intensivem Bemühen 
und besten Absichten trifft dies in manchen Fällen auf große Schwierigkeiten und 
Hürden. Wenn Kinder, geistig Behinderte oder Demenzkranke beteiligt sind, ist eine 
informierte Einwilligung der Beteiligten selbst im vollen Sinne kaum möglich. Ande- 
rerseits kann der Verzicht auf Forschung zum Wohle der genannten Gruppen nicht 
ernsthaft in Erwägung gezogen werden. In welchem Maße informierte Einwilligung 
durch Erziehungsberechtige und einen gesetzlichen Vormund erlangt werden kann, 
wird durchaus kontrovers diskutiert. 

Ebenfalls kontrovers diskutiert werden auch einige Erhebungsmethoden, die 
bewusst gegen das Prinzip der informierten Einwilligung verstoßen. Dazu zählen 
die verdeckte Beobachtung sowie die gezielte, temporäre Fehlinformation. Diese 
Methoden werden in der Psychologie und in der sozialwissenschaftlichen For- 
schung vor allem dann gewählt, wenn die Forschenden befürchten, eine umfassen- 
de Information könne die Forschung gefährden bzw. die Befunde verfälschen. Dies 
gilt etwa für Forschung zu prekären Gruppen wie Suchtkranken oder ethnischen Mi- 
noritäten. Ohne verdeckten Zugang bzw. in Kenntnis des tatsächlichen Forschungs- 
anliegens würden die Probandinnen bzw. Probanden möglicherweise ihre Teilnah- 
me verweigern oder sozial erwünschte Antworten geben und entsprechende 
Verhaltensweisen zeigen.” Unbestreitbar ist, dass die Rechte der Untersuchten da- 
mit verletzt werden und der Grundsatz der informierten Einwilligung suspendiert 
wird. Während Christel Hopf derartige Methoden aus forschungsethischen und da- 
tenschutzrechtlichen Gründen grundsätzlich für unzulässig hält,” gibt Hella von 
Unger zu bedenken, dass nur so valide Erkenntnisse zu gewinnen seien und daher 
für präzise zu benennende Zielgruppen unter Einhaltung strenger wissenschaftli- 
cher Regeln zugelassen werden sollten.” 

Ein weiteres, grundsätzliches Problem ergibt sich dadurch, dass Verlauf und 
Folgen des Forschungsprozesses nicht zwangsläufig zur Gänze vorhersehbar sind. 


29 Mitscherlich und Mielke 1960, 272. 
30 Vgl. Schnell und Dunger 2018, 31. 
31 Vgl. Heinrichs 2010, 71. 

32 Vgl. Unger 2014, 27. 

33 Vgl. Hopf 2016, 196. 

34 Vgl. Unger 2014, 28. 
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Insbesondere im Rahmen qualitativer Studien können explorative Prozesse Bedeu- 
tung erlangen, die nur bedingt planbar sind. Die Aussagen zu Methode, Verlauf und 
Ergebnis des Forschungsprozesses, die zum Zwecke des informierten Einverständ- 
nisses vermittelt werden, sind nicht so präzise vorab festlegbar, wie bei klinischen 
oder quantitativen Studien. Üblicherweise wird das informierte Einverständnis 
durch das einmalige Einholen einer Unterschrift zu Beginn der Datenerhebung 
dokumentiert. Im Falle qualitativer Studien empfiehlt sich jedoch, informiertes Ein- 
verständnis als iterativen, dialogischen Prozess zu verstehen und bei Bedarf entwe- 
der mündlich oder schriftlich erneut um die Zustimmung zu bitten.” In der Daten- 
schutz-Grundverordnung der EU ist diesem Aspekt insofern Rechnung getragen 
worden, als die Möglichkeit eingeräumt wurde, eine Einwilligung auch dann zu ge- 
ben, wenn Zwecke und Verlauf des Forschungsprozesses zum Zeitpunkt der Erhe- 
bung noch nicht vollständig angegeben werden können.’® Diese Erweiterung des 
„informed consent“ wird als „broad consent“ bezeichnet, die jedoch nicht mit einer 
pauschalen, unbegrenzten Erlaubnis verwechselt werden darf. Es handelt sich viel- 
mehr um eine abgestufte Einwilligung, die sich nur auf den benannten Forschungs- 
bereich oder Teile eines konkreten Forschungsprojektes bezieht. Mit dem Konzept 
des „broad consent“ soll die Möglichkeit erleichtert werden, im Rahmen von Lang- 
zeitstudien personenbezogene Daten einzubeziehen, die in früheren, zeitlich be- 
grenzten Studien erhoben worden sind.” Wichtig ist in jedem Falle, dass die Einwil- 
ligung jederzeit widerrufen werden kann. 

Im Hinblick auf die Nachnutzung von Forschungsdaten stellt die informierte 
Einwilligung ein nicht unerhebliches Problem dar. Wenn nämlich Daten nicht nur 
vom ursprünglich Forschenden analysiert werden, ist es kaum möglich, den Betrof- 
fenen vor der Datenerhebung mitzuteilen, zu welchen Zwecken und unter welchen 
Fragestellungen die Forschungsdaten zu einem späteren Zeitpunkt von noch unbe- 
kannten Forschern genutzt werden.’® Eine neue Datenkultur der Offenheit und des 
Teilens, mithin die Verfügbarkeit von Forschungsdaten für spätere, noch unbekann- 
te Nutzungsformen, gehört jedoch zu den erklärten Zielen der Open-Source- bzw. 
Open-Science-Bewegung.*” Die damit verbundene Brisanz kann in einigen Fällen 
durch geeignete Maßnahmen wie Anonymisierung und Pseudonymisierung zumin- 
dest partiell entschärft werden. 

Neben Schadensvermeidung und informierter Einwilligung ist der Schutz der 
Persönlichkeitsrechte der Befragten, Probandinnen bzw. Probanden und Beobachte- 
ten von größter Wichtigkeit. Dieser Gesichtspunkt spielt vor allem in der qualitati- 


35 Vgl. Unger 2014, 26. 

36 Vgl. Datenschutz-Grundverordnung 2018, Erwägungsgrund 33. 
37 Vgl. Rat für Sozial- und Wirtschaftsdaten 2017, 14. 

38 Vgl. Wagner 2017, 4. 

39 Vgl. Rat für Informationsinfrastrukturen 2016, 17, 52. 


1.5 Forschungsethik und Forschungsdaten —— 125 


ven Sozialforschung, der Psychologie und den Heil- und Pflegewissenschaften eine 
herausragende Rolle. Der Schutz der Privatheit umfasst das Recht auf informationel- 
le Selbstbestimmung, d.h. das Recht des Einzelnen, selbst dariiber zu bestimmen, 
ob ihn betreffende, personenbezogene Daten zugänglich gemacht werden dürfen 
und zu welchem Zweck diese verwendet werden können. 

Dieses Recht ist auf nationaler und europäischer Ebene durch umfassende da- 
tenschutzrechtliche Regelungen garantiert.“? So stellt Art. 9 der Datenschutz-Grund- 
verordnung unmissverständlich fest, dass die Verarbeitung „personenbezogener 
Daten, aus denen die rassische und ethnische Herkunft, politische Meinungen, reli- 
giöse oder weltanschauliche Überzeugungen oder die Gewerkschaftszugehörigkeit 
hervorgehen, sowie die Verarbeitung von genetischen Daten, biometrischen Daten 
zur eindeutigen Identifizierung einer natürlichen Person, Gesundheitsdaten oder 
Daten zum Sexualleben oder der sexuellen Orientierung einer natürlichen Person“ 
untersagt ist.“ Ausführliche Interviews, die verschriftlicht oder als Audio- bzw. Vi- 
deoaufzeichnung vorliegen, können jedoch äußerst sensible personenbezogene Da- 
ten enthalten, die großen Schaden anrichten, wenn sie missbraucht, in die Hände 
Dritter gelangen oder allgemein veröffentlicht werden.” Grundsätzlich sind Inter- 
views und Befragungen im Zuge wissenschaftlicher Forschungsprojekte ethisch sen- 
sibel, denn die Interviewsituation „bedeutet für den Befragten ein Eindringen in sei- 
ne Privatsphäre und ein Einmischen in seine Angelegenheiten“. Befragungen zu 
intimen, möglicherweise stigmatisierenden Themen können außerordentlichen 
Stress, Furcht, Erschöpfung oder gar psychopathologische Zustände hervorrufen. 

Geeignete Maßnahmen zur Wahrung des Datenschutzes im Zusammenhang mit 
Forschungsdaten sind wie bereits erwähnt Pseudonymisierung und Anonymisie- 
rung. Bei Pseudonymisierung wird der reale Name einer bzw. eines Probanden 
durch einen erfundenen Namen oder eine abstrakte Zählung ersetzt. Es heißt dann 
statt „Peter Meier“ z.B. „Max Mustermann“ oder „Person 1“. Anonymisierung geht 
insofern einen Schritt weiter, als Daten im Idealfall nicht mehr einer natürlichen 
Person zugeordnet werden können. Für die Anonymisierung sowohl qualitativer als 
auch quantitativer Forschungsdaten sind bereits vor einigen Jahren Handreichun- 
gen erarbeitet worden.““ 

Für rein quantitative Sozialforschung stellt Anonymisierung in den allermeisten 
Fällen kein Problem dar. Aussagen des Typs „10% aller befragten Fahrradfahrer...“ 
sind valide und lassen keine Rückschlüsse auf einzelne Personen, die befragt wur- 
den, zu. Dies gilt jedoch nicht, wenn die Grundgesamtheit numerisch so begrenzt 


40 S.a. Beitrag von Lauber-Rönsberg, Kap. 1.4 in diesem Praxishandbuch. 
41 Datenschutz-Grundverordnung 2018. 

42 Vgl. Unger 2014, 25. 

43 Viebrock 2015, 66-67. 
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126 —— Hermann Rosch 


ist, dass eine De-Anonymisierung möglich wird (z.B. „Chefärzte und -ärztinnen 
städtischer Krankenhäuser der Region X“). In der qualitativen Sozialforschung hin- 
gegen tritt ein anderes Problem auf. Wenn im Zuge der Anonymisierung nicht nur 
Namen und Adresse entfernt bzw. ersetzt werden, sondern auch weitere Variablen 
wie Alter, Wohnort, Beruf, Einkommen usw., wird die Informationsgenauigkeit re- 
duziert. Da die Identifizierung beteiligter Personen durch aussagekräftige Merkmale 
wie Ausdrucksweise, Tonlage, Erzählmuster, Physiognomie, Kleidung usw. in Au- 
dio- oder Videodokumenten nie vollkommen auszuschließen ist, müssten theore- 
tisch weitere Verfremdungen vorgenommen werden. Dem steht entgegen, dass jede 
Verfremdung, jede Vergröberung und jede Dekontextualisierung den heuristischen 
Wert der Daten senkt.“ Die digitale Archivierung entsprechender Rohdaten wirft da- 
her aus forschungsethischer Sicht erhebliche Probleme auf. Diese Herausforderun- 
gen sind zusätzlich angewachsen, seit im Zuge von Big Data bislang unvorstellbar 
große Mengen heterogener Daten zusammengespielt und anschließend mittels Al- 
gorithmen bzw. Künstlicher Intelligenz ausgewertet werden können. Auf diese Wei- 
se ist es in bedrohlichem Maße möglich, zuvor separierte Merkmale wieder zusam- 
menzuführen, Persönlichkeitsprofile zu rekonstruieren und die Effekte der Anony- 
misierung rückgängig zu machen. 

In jedem Einzelfall muss entschieden werden, ob und in welchem Maß die For- 
schungsdaten anonymisiert werden können, ohne dass der Erkenntniswert in nen- 
nenswertem Maß gemindert wird. Festzulegen ist ferner, ob und unter welchen Be- 
dingungen die Forschungsdaten zugänglich gemacht werden können. In diese 
Überlegungen müssen sowohl die mit Big Data, Algorithmen und Künstlicher Intel- 
ligenz eröffneten Möglichkeiten und Gefahren einbezogen werden als auch die Ver- 
pflichtungen, die z.B. im Hinblick auf Open Data Policies gegenüber Drittmittelge- 
bern und den eigenen Trägerinstitutionen bestehen. 

Unter forschungsethischen Gesichtspunkten wären in diesem Abschnitt auch 
ethische Fragen im Kontext von Tierversuchen und hinsichtlich möglicher Folgen 
für dingliche Forschungsgegenstände wie Kunstwerke, Gebäude oder Pflanzen an- 
zusprechen. Da der Blick hier in erster Linie den mit Forschungsdaten verbundenen 
ethischen Fragestellungen gilt, soll dies jedoch unterbleiben. 


2.3 Die Verantwortung gegenüber Gesellschaft und Umwelt 


Der dritte Bezugsbereich der Forschungsethik, der hier nur kurz angerissen werden 
kann, umfasst die Verantwortung von Forschung gegenüber der Gesellschaft und 
der Umwelt und reicht insofern ebenfalls über den Wissenschaftssektor hinaus.“® 


45 Vgl. Rat für Sozial- und Wissenschaftsdaten 2017, 19-20. 
46 Vgl. Deutsche Forschungsgemeinschaft 2014, Starck 2005. 


1.5 Forschungsethik und Forschungsdaten — 127 


Die nach außen gerichteten, strukturellen Verantwortungsprobleme beziehen sich 
zum einen auf das Spektrum von Erkenntnisinteressen und -desinteressen.”” Wer- 
den Forschungsgegenstände tatsächlich nach sozialen und politischen Gesamtinter- 
essen oder nach ökonomischem Partikularinteresse bzw. ihrer Karrieretauglichkeit 
ausgewählt? Welche Rolle spielen dabei Loyalitätskonflikte und individuelle Inter- 
essen? Zum anderen geht es um die Folgeverantwortung für die Wirkung und Nut- 
zung von Forschungsergebnissen. Damit ist ein heikles Problem angesprochen, für 
das eine endgültige und befriedigende Lösung nicht in Sicht ist. Gibt es Gegenstän- 
de, die prinzipiell von Forschung ausgeschlossen werden sollten? In der Reproduk- 
tionsmedizin oder in der Gentechnik erzeugt die Forschung z.T. ethische Fragen, 
die sie selbst nicht lösen kann und die möglicherweise sogar grundsätzlich unlösbar 
bleiben.“® Zu denken ist in diesem Zusammenhang z.B. auch an umwelt- und le- 
bensraumrelevante Experimente wie Freilandversuchsreihen mit gentechnisch ver- 
änderten Pflanzen.“ Entsprechende forschungsethische Fragen müssen im Diskurs 
mit Politik, Zivilgesellschaft und Wirtschaft erörtert und geklärt werden. 

Ein grundsätzliches Problem für Forschende besteht darin, dass die gesell- 
schaftlichen Auswirkungen durch Anwendung der Forschungsergebnisse häufig 
nicht angemessen zu überschauen sind. Dies betrifft sowohl den gutwilligen 
Gebrauch als auch den bewussten Missbrauch. Der missbräuchliche Einsatz von 
Forschungsergebnissen zu militärischen, terroristischen, demokratiefeindlichen, 
geheimdienstlichen oder kriminellen Zwecken wird auch als Dual-Use-Problematik 
bezeichnet.” So können Erkenntnisse aus der Materialforschung oder der Nano- 
technologie für die Entwicklung von Angriffswaffen eingesetzt werden, Ergebnisse 
der Infektionsbiologie können zur Herstellung biologischer Kampfstoffe genutzt 
werden oder Big Data und Algorithmen zur Überwachung und Diskriminierung von 
Minderheiten missbraucht werden. 

Die Gefahr einer ethisch zu missbilligenden Zweckentfremdung besteht jedoch 
nicht nur für Forschungsergebnisse, sondern auch für Forschungsdaten. Auch inso- 
fern muss genau geprüft werden, ob dem per se zu begrüßenden Grundsatz der 
Open Science durch freien Zugang zu Forschungsdaten in jedem Einzelfall entspro- 
chen werden kann oder ob klar definierte und transparent begründete Einschrän- 
kungen vorgenommen werden müssen. 


47 Vgl. Kaminsky und Mayerle 2012, 22. 
48 Vgl. Heinemann 2010, 102. 

49 Vgl. Lucas und Nida-Rümelin 1999, 48. 
50 Vgl. Wagner 2017, 3. 
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2.4 Ethikkommission 


Als ein wichtiges Instrument zur ethischen Selbstkontrolle von Wissenschaft und 
Forschung sind auf Hochschulebene Ethikkommissionen eingerichtet worden.” 
Ihre Aufgabe besteht grundsätzlich darin, externe Erwartungen in forschungsbezo- 
gene Entscheidungen zu übersetzen.” In den USA begann diese Entwicklung ver- 
einzelt in den 1950er Jahren im Zusammenhang mit medizinischer Forschung. 
Ethikkommissionen für biomedizinische Forschung, die in Deutschland seit den 
1970er Jahren sukzessive gegründet wurden, sind seit den 1990er Jahren nahezu flä- 
chendeckend vorhanden. Die Prüfung von klinischen Forschungsprojekten durch 
eine Ethikkommission ist in Deutschland in der Musterberufsordnung für Ärztinnen 
und Ärzte (815), dem Arzneimittelgesetz (8840-42)°* und im Medizinproduktege- 
setz (§20)” verankert. Ethikkommissionen sind nicht als Kontroll- und Verbotsgre- 
mien angelegt, sondern sollten in erster Linie als Beratungseinrichtungen verstan- 
den werden.’° Damit wird der grundgesetzlich garantierten Freiheit von Forschung 
und Lehre Rechnung getragen (vgl. Art. 5, Abs. 3 GG). Unmittelbare Forschungsver- 
bote sind daher nur in besonderen Ausnahmefällen und bei schwerwiegenden Ge- 
fahren für andere Verfassungsgüter zulässig.” Dazu zählen Güter wie Leben, Ge- 
sundheit, Würde, personale Integrität oder individuelle Selbstbestimmung.” Ob- 
wohl grundsätzlich als Beratungsinstanz vorgesehen, hat die ethische Überprüfung 
von Forschungsprojekten dennoch nicht selten eine genehmigungsähnliche Wir- 
kung, da Drittmittelgeber wie z.B. die DFG die Stellungnahme der zuständigen 
Ethikkommission in bestimmten Fällen zwingend einfordern. 

Ethikkommissionen existieren bei den medizinischen Fakultäten der Hochschu- 
len, den Landesärztekammern, in Krankenhäusern, Pharmaunternehmen und Arz- 
neimittelprüfungsinstitutionen.”” Im Arbeitskreis medizinischer Ethikkommissionen 
waren im März 2020 52 Mitglieder zusammengeschlossen.‘® Für klinische Prüfungen 
von Arzneimitteln und Medizinprodukten sind landesrechtliche Ethikkommissionen 
gesetzlich vorgeschrieben und fungieren tatsächlich als Genehmigungsbehörden. 
Auch auf Hochschulebene haben Ethikkommissionen die Funktion, Forschungsvor- 


51 Listen von Ethikkommissionen an Hochschulen finden sich in Rat für Sozial- und Wirtschafts- 
daten 2019 (für die Wirtschafts- und Sozialwissenschaften) und in Arbeitskreis medizinischer Ethik- 
kommissionen 2019 (für die Medizin). 
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haben unter ethischen Gesichtspunkten zu beurteilen und Forschende vor der 
Durchfiihrung von Projekten zu beraten. Im Vordergrund stehen dabei Forschun- 
gen, an denen Menschen beteiligt sind bzw. in denen personenbezogene Daten ent- 
stehen und verarbeitet werden. Außerhalb der medizinischen Fakultäten existieren 
mittlerweile universitäre Ethikkommissionen vor allem für psychologische und sozi- 
alwissenschaftliche Forschungen. 

Zu den eigentlichen Aufgaben der Ethikkommissionen gehören Abwägungen in 
dreierlei Hinsicht. Zum einen geht es um die Frage, ob und in welchem Maße Risi- 
ken für teilnehmende Personen zu erwarten sind. Dabei spielen die bereits erwähn- 
ten Güter wie Leben, Gesundheit, Persönlichkeitsrechte usw. eine herausragende 
Rolle. Der zweite Aspekt betrifft die Abwägung zwischen Wissenschaftsfreiheit ei- 
nerseits und den individuellen Schutzgütern andererseits. Schließlich muss über- 
prüft werden, „ob der erwartete Erkenntnisgewinn das Risiko rechtfertigt, das Men- 
schen mit ihrer Teilnahme eingehen“*!. 

Zwar wird die grundlegende Berechtigung akademischer Ethikkommissionen 
meist nicht in Zweifel gestellt, doch gibt es auch Klagen über deren negative Fffekte, 
die das Forschungsdesign beeinträchtigen und die Aussagekraft der Forschungser- 
gebnisse mindern können. In den Sozialwissenschaften wird z.B. kritisiert, dass 
Erfahrungen aus der medizinisch-klinischen Forschung unverändert auf sozialwis- 
senschaftliche Forschung übertragen werden. Damit drohe die Gefahr, dass qualita- 
tive Forschung in quantitative Formate gedrängt oder gar ganz unmöglich gemacht 
werde. Von großer Bedeutung wird sein, zukünftig die disziplinspezifischen Com- 
munities in die Ethikkommissionen angemessen einzubinden und so deren gängige 
Theorien, Methoden und Traditionen in den ethischen Bewertungsprozessen zu be- 
rücksichtigen. Damit sollte auch verhindert werden können, dass Ethikkommissio- 
nen vorwiegend bürokratischen Logiken Rechnung tragen und darauf reduziert wer- 
den, Rechtskonformität zu garantieren. 

Nicht unproblematisch ist allerdings, dass Mitglieder universitärer Ethikkom- 
missionen neben einer Juristin bzw. einem Juristen, einer Philosophin bzw. einem 
Philosophen oder einer Theologin bzw. einem Theologen zumeist Forschende der 
eigenen Fakultät sind. Es ist nicht ausgeschlossen, dass bei der Bewertung der For- 
schungsanträge direkter Kolleginnen und Kollegen Loyalitäts- und Befangenheits- 
konflikte auftreten. Möglicherweise könnte dieses Problem durch unabhängige, 
übergeordnete Kommissionen entschärft werden. Hilfreich wäre ferner, wenn die 
Arbeit der Ethikkommissionen transparenter würde. Dafür wäre es notwendig, die 
Sitzungsprotokolle nicht wie bislang üblich unter Verschluss zu halten, sondern frei 
zu geben. Ethikkommissionen dispensieren Forschende nicht von der Pflicht, jen- 


61 Buchner, Hase, Borchers und Pigeot 2019, 694. 
62 Vgl. dazu und zum Folgenden Unger und Simon 2016, 9-10. 
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seits der durch die Kommissionen erarbeiteten Stellungnahmen und Empfehlungen 
allgemeine ethische Standards zu berücksichtigen sowie entsprechenden Empfeh- 
lungen zu folgen, die von Berufsverbänden, Wissenschaftsgremien oder Förderorga- 
nisationen wie der DFG erarbeitet worden sind. 

Im Kontext von Forschungsdaten ist zu empfehlen, dass Ethikkommissionen 
immer dann in die Projektplanung beratend einbezogen werden, wenn Daten von 
bzw. über Menschen erhoben werden, wenn also personenbezogene Daten generiert 
oder kumuliert werden. Eine bloße Konsultation des bzw. der Datenschutzbeauf- 
tragten reicht keinesfalls aus, denn diese beschränken sich häufig auf eine reine da- 
tenschutzrechtliche Bewertung. Gemeinsam sollte u. a. geprüft werden, ob die Krite- 
rien des „informed consent“ erfüllt sind und ob der Schutz der Privatheit in ausrei- 
chendem Maß gewährleistet ist. Vorstellbar wäre aber auch, dass die lokale 
Ethikkommission oder ein übergeordnetes disziplinspezifisches Ethikkomitee Krite- 
rienkataloge erarbeiten, an denen sich die Wissenschaftlerinnen bzw. Wissenschaft- 
ler orientieren können. 


3 Forschungsdatenmanagement und Ethik 


Während Ethikkommissionen darüber zu befinden haben, ob während des For- 
schungsprozesses selbst Risiken und Schäden für die teilnehmenden Personen zu 
erwarten sind, spielt der Aspekt der Nachwirkung der Forschungsergebnisse durch 
die Veröffentlichung der Forschungsdaten dabei keine Rolle. Ethische Überlegun- 
gen aber sind nicht nur an die Prozesse der Datenerhebung, sondern auch an jene 
der Datenkommunikation zu knüpfen. Angeklungen ist dies bereits bei der Behand- 
lung der Frage, in welchem Umfang Rohdaten in Form von Audio- und Videodatei- 
en oder Wortprotokollen, die im Rahmen qualitativer Sozialforschung entstanden 
sind, pseudonymisiert und anonymisiert werden können bzw. müssen. 

Auch im Kontext des Forschungsdatenmanagements (FDM) ist das Ethos episte- 
mischer Rationalität zu unterscheiden vom Verantwortungsethos, zu dem vor allem 
die Verantwortung für den Schutz der Persönlichkeitsrechte der Teilnehmenden so- 
wie darüber hinaus der Gesellschaft gehören. Das Ethos epistemischer Rationalität 
bezieht sich im Hinblick auf FDM darauf, dass auch dafür Grundsätze einer ethisch 
vertretbaren Praxis entwickelt und eingehalten werden müssen. Aus diesem Grund 
ist in den folgenden Abschnitt eine kritische Auseinandersetzung mit der überarbei- 
teten Fassung des DFG-Kodex zur Sicherung guter wissenschaftlicher Praxis einge- 
flossen.™ 
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3.1 Forschungsdatenmanagement und gute wissenschaftliche 
Praxis 


Mit dem durch digitale Techniken verbundenen Bedeutungszuwachs fiir For- 
schungsdaten ist auch die Frage aufgetaucht, welche Rolle diese für die Kommuni- 
kation von Forschungsergebnissen spielen. Je starker Forschung auf der Grundlage 
von Experimenten, Messungen, Zellkulturen, Erhebungen, Befragungen, Material- 
proben, Bildern oder digitalisierten Quellen erfolgt, desto deutlicher erweist es sich 
als notwendig, dass neben der klassischen Publikation der Forschungsergebnisse in 
Form von Aufsätzen, Monographien, Vorträgen usw. auch die zugehörigen For- 
schungsdaten zugänglich gemacht und langfristig gespeichert werden. Dadurch 
wird die Transparenz von Forschung erhöht und die Qualität verbessert. Die Veröf- 
fentlichung von Forschungsdaten ist als integraler Teil der Open-Science-Bewegung 
zu verstehen.‘ Damit verbunden ist die Erwartung, dass sich im Gefolge von Open 
Science und eScience eine neue Kultur des Teilens und der Offenheit im Umgang 
mit Forschungsdaten ergibt. Die Bereitstellung von Forschungsdaten über spezielle 
Datenrepositorien oder Data Journals wird als entscheidender Faktor für die Ent- 
wicklung von Open Science bezeichnet.‘ 

Die prinzipielle Möglichkeit, Untersuchungen durch Nutzung von Forschungs- 
daten unter identischen Laborbedingungen zu replizieren bzw. durch Überprüfung 
der Schlussfolgerungen zu validieren, die aus den Daten abgeleiteten worden sind, 
gehört zu den grundlegenden forschungsethischen Normen. Ein weiteres Argu- 
ment für die langfristige Archivierung, die Bereitstellung bzw. Publikation von For- 
schungsdaten besteht in der Nachnutzbarkeit. Einmal erhobene Daten können unter 
veränderten Fragestellungen mit anderen Methoden und Auswertungstechniken zu 
einem späteren Zeitpunkt für weitere Forschungen herangezogen werden. Entspre- 
chende Verwertungsketten und Folgeanalysen bieten die Chance, Kosten in erhebli- 
chem Umfang einzusparen. Dies gilt auch für die Möglichkeit, disziplinspezifisch er- 
hobene Forschungsdaten in interdisziplinär angelegte Projekte einzubeziehen. 
Wenn Doppelarbeit bei Versuchen an und mit Menschen durch Nachnutzung vor- 
handener Forschungsdaten vermieden werden kann, bedeutet dies auch, dass nicht 
weitere Probanden unnötig Gefahren ausgesetzt werden. 

Die DFG hat in der im August 2019 publizierten Neufassung ihrer Denkschrift 
zur Sicherung guter wissenschaftlicher Praxis dem Bedeutungszuwachs von For- 


65 Vgl. European Union 2016. 

66 Vgl. Ivanovic, Schmidt, Grim und Dunning 2019, 3. 

67 Dies gilt nur bedingt für Forschungsgebiete, die sich auf einmalige Ereignisse beziehen, wie 
beispielsweise Vulkanausbrüche oder Sternenexplosionen, oder auf Experimente, die sich aus ethi- 
schen, finanziellen oder technischen Gründen nicht wiederholen lassen. Vgl. dazu Deutsche For- 
schungsgemeinschaft 2017. 
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schungsdaten Rechnung getragen und damit manche Lücke der Vorgängerfassun- 
gen von 1998 und 2013 geschlossen.°® In den Erläuterungen zu Leitlinie 13 „Herstel- 
lung von öffentlichem Zugang zu Forschungsergebnissen“ heißt es eindeutig: 


Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit 
hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publika- 
tion zugrunde liegenden Forschungsdaten und zentralen Materialien - den FAIR-Prinzipien 
(„Findable, Accessible, Interoperable, Re-Usable“) folgend — zugänglich in anerkannten Archi- 
ven und Repositorien.°? 


Dass es im Einzelfall Gründe geben kann, „Ergebnisse nicht öffentlich zugänglich 
[...] zu machen“,”° wird eingeräumt, jedoch fehlt es hier an Beispielen für solche 
Gründe, die einen eingeschränkten Zugang, Embargofristen oder gar vollständige 
Sperrung nahelegen könnten. Wünschenswert wäre ferner gewesen, wenn die Emp- 
fehlung, Forschungsdaten in „anerkannten Archiven und Repositorien“ zugänglich 
zu machen, konkreter gefasst worden wäre. Erfreulich ist an dieser Stelle der Bezug 
auf die „FAIR Guiding Principles for scientific data management and stewardship“, 
in denen Standards definiert werden, die sicherstellen sollen, dass Forschungsdaten 
„findable, accessible, interoperable and re-usable“ sind.” Doch wird dies durch 
eine irritierende Unschärfe konterkariert, die in Leitlinie 17 „Archivierung“ auf- 
taucht. Dort wird gefordert, dass „Forschungsdaten (in der Regel Rohdaten) - ab- 
hängig vom jeweiligen Fachgebiet - in der Regel für einen Zeitraum von zehn Jah- 
ren zugänglich und nachvollziehbar in der Einrichtung, wo sie entstanden sind, 
oder in standortübergreifenden Repositorien aufbewahrt“ werden.” Zwar werden 
Hochschulen und außeruniversitäre Forschungseinrichtungen aufgefordert, die da- 
für notwendige Infrastruktur zu schaffen, doch wären damit die Anforderungen der 
DFG erfüllt, wenn Forschungsdaten in lokalen Datensilos ohne Vernetzung und wei- 
tere Regelungen z.B. hinsichtlich einer standardisierten Erschließung durch Meta- 
daten und der Nachnutzung mindestens zehn Jahre lang aufbewahrt würden. Schon 
in den 2015 von der DFG verabschiedeten „Leitlinien zum Umgang mit Forschungs- 
daten“ bei der Beantragung von Projektförderungen findet sich diese dringend kor- 
rekturbedürftige Formulierung.” In diesen Positionierungen der DFG haben Kon- 
zepte wie Open Science und Open Data keinen Niederschlag gefunden. Deren Ab- 
sicht aber besteht gerade darin, digitale Datensammlungen zu vernetzen, die 
Existenz von Daten bekannt zu machen und damit eine Nachnutzung zu stimulie- 
ren. 


68 Einen Überblick über die Leitlinien der DFG und deren Bedeutung für das FDM bietet Böker o.J. 
69 Deutsche Forschungsgemeinschaft 2019, 19. 
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71 Vgl. Wilkinson, Dumontier und Mons 2016. 
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Es wäre wünschenswert, die DFG-Leitlinien zur Sicherung guter wissenschaftli- 
cher Praxis im Hinblick auf Forschungsdaten zu präzisieren und dabei die dauerhaf- 
te Speicherung in einem zertifizierten Repositorium nahezulegen, das Teil der im 
Entstehen begriffenen, Nationalen Forschungsdateninfrastruktur (NFDI) ist, die der 
Rat für Informationsinfrastrukturen 2016 angeregt hat.’ Hinsichtlich der Nutzung 
sollte möglichst große Offenheit als Ziel vorgegeben werden; dabei sollten Ein- 
schränkungen, die aufgrund urheberrechtlicher Bestimmungen notwendig werden 
können oder die zur Wahrung der Persönlichkeitsrechte geboten erscheinen, in 
Rechnung gestellt werden. Grundsätzlich sollte als Idealzustand anzusehen sein, 
dass klassische Publikationen mindestens in empirisch und experimentell vorge- 
henden Disziplinen mit den zugehörigen, an anderer Stelle zugänglich gemachten 
Forschungsdaten verknüpft werden.” 

Im Rahmen des FDM müssen urheberrechtliche Ansprüche auch aus ethischen 
Gründen gewahrt werden. Rein rechtlich verfügen unstrukturierte Messdaten und 
maschinell erzeugte Rohdaten nicht über die notwendige „Schöpfungshöhe“, um 
daraus urheberrechtliche Ansprüche ableiten zu können. Das kann sich je nach Ag- 
gregationsstufe und damit verbundenem persönlichem Beitrag der Beteiligten än- 
dern. Die Komplexität dieser Fragestellung kann an dieser Stelle nicht weiterver- 
folgt werden.’® 

Unabhängig von den gesetzlichen Bestimmungen sollte es im Sinne guter wis- 
senschaftlicher Praxis selbstverständlich sein, dass bei der Nutzung fremder For- 
schungsdaten deren Urheber genannt und zitiert werden. Forschungsdaten sollten 
als legitime und zitierwürdige Forschungsergebnisse angesehen werden. Dafür 
müssen Metadaten und Zitationsformate standardisiert und konventionalisiert wer- 
den. Schließlich könnten Zitation und Nachnutzung von Forschungsdaten auch als 
aussagekräftiger Wert in bibliometrischen und scientometrischen Verfahren berück- 
sichtigt werden. 


3.2 Forschungsdatenmanagement und Verantwortungsethos 


Der Zugang zu Forschungsdaten sowie deren Nachnutzung sollten nur in begründe- 
ten Ausnahmefällen eingeschränkt werden. Oben (s. Abschnitt 2.2) waren Anonymi- 
sierungsverfahren zum Schutz der Persönlichkeitsrechte thematisiert worden. Dabei 
war zum einen klargeworden, dass Anonymisierungen nicht in allen Fällen irrever- 
sibel sind und dass sie zum anderen möglicherweise die Aussagekraft der For- 
schungsergebnisse in unvertretbarem Maße schmälern. Wenn die Persönlichkeits- 


74 Vgl. Rat für Informationsinfrastrukturen 2016. 
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rechte der Probandinnen bzw. Probanden verletzt werden können und substanziel- 
ler Schaden hervorgerufen werden kann, muss von einer Veröffentlichung der For- 
schungsdaten abgesehen werden. Entsprechende Überlegungen müssen jedoch 
auch in Bezug auf Institutionen, Betriebe und Unternehmen angestellt werden, die 
durch sie betreffende Forschungsdaten gegebenenfalls Wettbewerbsnachteile erlei- 
den oder in Verruf geraten könnten. Darüber hinaus müssen bestimmte Forschungs- 
daten vor Missbrauch durch unbefugte Dritte geschützt werden. Dies gilt insbeson- 
dere dann, wenn Datenmaterial für terroristische, kriminelle und andere 
destabilisierende Zwecke eingesetzt oder unter politischen, sozialen, ökologischen 
oder ökonomischen Gesichtspunkten zum Nachteil der Allgemeinheit zweckent- 
fremdet werden kann. Entsprechende Kriterien müssen präzise formuliert und dar- 
auf rekurrierende Entscheidungen nachvollziehbar begründet werden. Ob sich mit 
dem Paradigma der Offenheit von Forschungsdaten unvertretbare Auswirkungen 
auf die wirtschaftliche Wettbewerbsfähigkeit ganzer Staaten und Regionen ergeben, 
ist noch nicht in ausreichendem Maße reflektiert worden.” 

Schon bei der Planung eines Forschungsprojektes sollten Überlegungen ange- 
stellt werden, ob es Gründe für eine Sperrung oder einen eingeschränkten Zugang 
zu den Forschungsdaten geben könnte.’® Es ist ferner notwendig sicherzustellen, 
dass die berechtigten Interessen der Datenproduzenten an der Verwertung der Da- 
ten für eigene Publikationen gewahrt bleiben. An diesen ethischen Reflexionen soll- 
ten neben den Forschenden auch Gutachterinnen bzw. Gutachter und ggf. Förder- 
institutionen sowie die zuständige Ethikkommission beteiligt werden.” Auf jeden 
Fall muss vor der Speicherung der Forschungsdaten in einem Repositorium abge- 
wogen werden, ob der Zugang offen, eingeschränkt oder gänzlich verwehrt sein 
soll.®° Einschränkungsmöglichkeiten bestehen in der Festlegung von Embargofris- 
ten und der Bereitstellung nur für zugelassene Personen (Passwortschutz). Darüber 
hinaus können auch Teile eines Forschungsdatenkonvoluts gesperrt werden; zu 
denken ist dabei z.B. an besonders sensible Dokumenttypen wie Bilder oder Origi- 
naltöne oder Daten zu Personengruppen, die besonders leicht zu re-anonymisieren 
sein könnten. Ethische Reflexionen zum FDM sollten den gesamten Lebenszyklus 
der Daten umfassen, mit der Planung einsetzen und sich von der Entstehung über 
die Veröffentlichung und Nachnutzung bis hin zu Löschkonzepten erstrecken. 

Wenn über Nutzungseinschränkungen von Forschungsdaten nachgedacht wird, 
muss auch bewusst sein, dass es gegen ethische Prinzipien und die Grundsätze gu- 
ter wissenschaftlicher Praxis verstößt, wenn Forschungsdaten aus nicht nachvoll- 
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ziehbaren Griinden zuriickgehalten werden. Es sollte daher nach dem Grundsatz ge- 
handelt werden, dass der Zugang zu Forschungsdaten so frei wie möglich erfolgt 
und nur in dem Maße eingeschränkt wird, wie unbedingt nötig.°' Selbst wenn es 
unumgänglich erscheint, Daten zu sperren, ist es in hohem Maße wünschenswert, 
dass Projektbeschreibung und Forschungsdaten in einem Forschungsdatenreposito- 
rium durch Metadaten repräsentiert sind. Wenn die Existenz der Daten überhaupt 
bekannt ist, können Interessierte wenigstens Kontakt mit den Datenproduzierenden 
aufnehmen und sich über mögliche Kooperationsmöglichkeiten austauschen. 

Für die Betreiber von Forschungsdatenrepositorien empfiehlt es sich, die 
Grundlagen ihres Handelns in einer Policy zusammenzufassen. Darin sollten Aussa- 
gen zu Aufnahmekriterien, Speicherung und Langzeitarchivierung, Erschließung, 
Bereitstellung und Nutzungsbedingungen sowie Löschkonzepten enthalten sein. 
Darüber hinaus sollten sowohl die ethischen Grundwerte benannt werden, an de- 
nen sich das Handeln der Betreiberinnen und Betreiber orientiert als auch jene, de- 
ren Wahrung von den Datenproduzentinnen und -produzenten erwartet wird. 


4 Praxistransfer 


Es ist dringend notwendig, die ethischen Implikationen von Forschungsdaten im 
wissenschaftlichen Diskurs intensiv zu thematisieren, um so Sensibilität für die da- 
mit verbundenen Problemfelder zu wecken und Standards zu entwickeln, welche 
die Orientierung erleichtern. Dabei sollte vermittelt werden, dass Ethik gegenüber 
dem Recht einen Eigenwert besitzt. Bislang zeigt sich, dass problematische Aspekte 
z.B. hinsichtlich Gesundheit, personaler Integrität oder individueller Selbstbestim- 
mung beinahe ausschließlich unter rechtlichen Gesichtspunkten angesprochen wer- 
den. Um ethische Anforderungen zu erfüllen aber reicht es nicht, lediglich den Er- 
fordernissen des gesetzlichen Datenschutzes Genüge zu tun. 

Es wäre Aufgabe vor allem der empirischen und experimentellen Wissenschaf- 
ten, disziplinspezifische Ethikkommissionen einzusetzen und diese u.a. damit zu 
beauftragen, Standards ethisch vertretbarer Forschungspraxis zu entwickeln. Die so 
entstandenen Entwürfe sollten dann in der breiten Fachöffentlichkeit diskutiert und 
konsensualisiert werden. Hilfreich wäre ferner, einen Pool von Fallstudien zu entwi- 
ckeln, an dem sich Forschende bei der Projektplanung und grundsätzlich in Zwei- 
felsfragen orientieren können. Fallstudien eignen sich darüber hinaus hervorra- 
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gend, um den wissenschaftlichen Nachwuchs mit forschungsethischen Fragen ver- 
traut zu machen.” 

Der DFG ist anzuraten, ihre Leitlinien zur Sicherung guter wissenschaftlicher 
Praxis aus dem Jahr 2019 zu präzisieren.®* Es sollte klargestellt werden, dass Publi- 
kationen, in denen Forschungsdaten ausgewertet werden, mit diesen verknüpft 
werden müssen. Für Forschungsdaten ist zu fordern, dass diese in einem zertifizier- 
ten Repositorium gespeichert und für eine möglichst breite Nutzung zur Verfügung 
gestellt werden sollten. Unumgängliche Nutzungseinschränkungen sollten begrün- 
det werden. 

Eine wichtige Rolle bei der Sicherung guter wissenschaftlicher Praxis durch pro- 
fessionellen Umgang mit Forschungsdaten können Hochschulbibliotheken über- 
nehmen. In den vergangenen Jahren wurden im Zuge des Auf- und Ausbaus von 
Angeboten zur Vermittlung von Informationskompetenz Themen wie Plagiatsprä- 
vention und korrektes Zitieren in diese Schulungen integriert; doch müssten die 
Klagen über drohenden Qualitätsverlust in der Wissenschaft, die von der DFG aus 
diesem Anlass publizierten Leitlinien und weitere Positionspapiere zum Thema Si- 
cherung akademischer Integrität von den Bibliotheken als Auftrag begriffen wer- 
den, standardisierte und koordinierte Dienstleistungen zu entwickeln.° Im Kontext 
von Forschungsdaten ist zu fordern, dass Forschende durch Hochschulbibliotheken 
bei der Erstellung von Datenmanagementplänen (DMP), den mit der Datenerhebung 
sowie der späteren Veröffentlichung verbundenen praktischen, rechtlichen und 
ethischen Problemen beraten werden. Ansätze sind bei solchen Bibliotheken zu er- 
kennen, die bereits Forschungsdatenrepositorien betreiben. Zu wünschen ist, dass 
es nicht bei isolierten Maßnahmen bleibt, sondern dass dazu Empfehlungen und 
Guidelines kooperativ erarbeitet und gepflegt werden. Vielleicht könnten disziplin- 
spezifische Angebote arbeitsteilig erstellt und gepflegt und anschließend im System 
genutzt werden. 

Schließlich ist den Betreibern von Forschungsdatenrepositorien nahezulegen, 
ihr Dienstleistungsangebot und die damit verbundenen ethischen Grundwerte in ei- 
ner Policy exakt zu beschreiben. Ein solches Dokument könnte in einer Musterfas- 
sung formuliert werden, die dann um lokale Spezifika ergänzt werden kann. Emp- 
fehlungen für die Erarbeitung institutioneller Forschungsdaten-Policies wurden an 
der TU Berlin entwickelt. Ethische Aspekte werden darin entweder nicht erwähnt 
oder den rechtlichen untergeordnet.®” 


83 Dem hat das Committee on Publication Ethics bereits Rechnung getragen und seine Online-Tu- 
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Fazit 


In der Auseinandersetzung mit den ethischen Implikationen von Forschungsdaten 
zeigt sich, dass dieser Bereich der Forschungsethik bislang noch keine hinreichende 
Aufmerksamkeit gefunden hat. Ethische Reflexion im Hinblick auf Forschungsdaten 
ist in vielerlei Hinsicht notwendig. Dies betrifft sowohl den Aspekt der Datengewin- 
nung als auch den der Datenkommunikation. Unter beiden Gesichtspunkten spielt 
sowohl das Ethos der guten wissenschaftlichen Praxis eine Rolle als auch das Ver- 
antwortungsethos im Hinblick auf die beteiligten Menschen sowie Gesellschaft und 
Umwelt als Ganzes. Ergebnis eines verstetigten Ethikdiskurses sollte es sein, Stan- 
dards zu entwickeln, die nach disziplinspezifischem und lokalem Bedarf angepasst 
werden können. 
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Markus Putnings 
2 Datenmarkt 


Abstract: Ein Datenmarkt definiert sich durch das Angebot und die Nachfrage be- 
stimmter Datensammlungen auf Datenmarktplätzen, mit dem Ziel einer direkten 
oder indirekten Wertschöpfung. Der Beitrag skizziert ein theoretisches Datenmarkt- 
modell, stellt dem die Realität bzw. aktuelle Situation gegenüber und leitet über zu 
den Unterkapiteln der jeweiligen Datenmärkte. 


1 Definition 


Ein Datenmarkt definiert sich durch das Angebot und die Nachfrage bestimmter Da- 
tensammlungen, die sich durch eine besonders hohe Quantität, Qualität bzw. Aufbe- 
reitung z.B. zu „Produkten“, „Katalogen“/„Verzeichnissen“ oder „Services“ aus- 
zeichnen. Die Datensammlungen können auf einem oder mehreren digitalen 
„Marktplätzen“ unter definierten Marktregeln! und -infrastrukturen kostenpflichtig 
oder kostenfrei? ausgetauscht bzw. verarbeitet (z.B. analysiert) werden, wodurch 
Wertschöpfungs- und Innovationsprozesse angestoßen werden. Diese wirken sich 
wiederum positiv auf die Ökonomie des Landes bzw. der Region (z. B. EU) aus.’ 

Die Wertschöpfung am Datenmarkt kann auch ein Hilfsmittel sein, um Datenak- 
tivitäten und -kosten (z.B. Datenkuration) nachhaltig zu finanzieren.” In der Folge 
davon kann, z. B. mittels Aufbereitung der Daten für Datenmärkte, die Datenqualität 
auf einer breiten Ebene, den Marktnormen entsprechend, steigen. 


1 Diese Datenmarktregeln zeichnen sich, in Abhängigkeit vom jeweiligen Datenmarkt (z.B. kom- 
merzieller, wissenschaftlicher Datenmarkt) mehr oder weniger ausgeprägt, nebst Wirtschaftsinter- 
essen auch durch soziale Imperative aus; zudem sind stets die regulativen Rahmenbedingungen des 
übergeordneten Datenökosystems zu beachten (vor allem der Datenschutz). 

2 Bei sog. Open Data (z.B. Open Research Data, Open Government Data), d.h. Daten, die unter 
einer freien Lizenz stehen, ist i.d. R. naturgemäß kein „Weiterverkauf“ der Daten selbst möglich; 
dennoch sind auch hier wertschöpfende und -steigernde Aktivitäten möglich, bspw. Datenanalyse- 
und -anreicherungsservices, die wiederum kostenpflichtig zur Verfügung gestellt werden können 
(vgl. Charalabidis et al. 2018b, 115 ff.), oder die Erzielung indirekter Wertschöpfung aus resultieren- 
den datenbasierten Geschäftsideen. 

3 Vgl. z.B. Charalabidis et al. 2018b, 115 ff.; European Commission 2017, 2; Ghosh 2018, 104; Munshi 
2018, 24-26; Nwatchock A Koul 2019, 3, 17-18; Virkar, Viale Pereira und Vignoli 2019, 215-216; 

4 Vgl. Charalabidis et al. 2018b, 115; Welle Donker 2018, 55 ff. 

5 Vgl. Charalabidis et al. 2018a, 158, 160-165; Dai, Shin, und Smith 2018, 21-22; Munshi und Verma 
2018, vii-x. 


3 Open Access. © 2021 Markus Putnings, publiziert von De Gruyter. JMA] Dieses Werk ist lizenziert unter 
der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-007 
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2 Aktuelle Situation 


Während die Kostenfinanzierung und Wertschöpfung im Industrie- und Wirtschafts- 
sektor° zumindest bei den „Big Playern“ (z.B. Microsoft, Amazon, Google, IBM) kein 
Problem darstellt, hapert es noch an der Teilnahme kleiner und mittlerer Unterneh- 
men am Datenmarkt.’ Auch im Wissenschaftssektor,® im öffentlichen Sektor” und 
beim Bürger bzw. bei der Bürgerin selbst (z.B. „Citizen Science“, „Citizen Data“) be- 
stehen große Unsicherheiten, wie man konkret und praktisch an existierenden Da- 
tenmarktplätzen teilnehmen oder eigene Datenmarktplätze kreieren kann. Zudem 
fehlt es z.T. an notwendigen Kompetenzen, um die notwendige Datenqualität! zu 
erreichen, an verfügbaren (z.B. Open-Source-)Technologien zur (Neu-)Etablierung 
von Datenmarktplätzen, die insbesondere die hohen Hürden hinsichtlich „Privacy 
& Trust“! erfüllen, und in der Folge davon an nachhaltigen und sinnvollen Ge- 
schäftsmodellen mit zufriedenstellenden Governance-, Sicherheits- sowie Interakti- 
onsmechanismen zwischen allen Marktteilnehmenden.” 

Mit Blick zurück auf die „Big Player“ besteht zudem v. a. im Industrie- und Wirt- 
schaftssektor die Gefahr, dass 


„Marktteilnehmer, die die Kontrolle über die Daten haben, [...] abhängig von den jeweiligen 
Besonderheiten der Märkte Lücken in der Rechtslage oder die [...] rechtlichen Unklarheiten 
ausnutzen, und den Nutzern unfaire Standardvertragsbedingungen aufzwingen oder zu techni- 


schen Mitteln wie proprietären Formaten oder Verschlüsselung greifen“, 


d.h. dass diese mit ihrer „Marktmacht“ die etwaige Wiederverwendung von Daten 
einschränken und schwächere Marktteilnehmerinnen und -teilnehmer, wie z.B. 
Bürgerinnen und Bürger aber auch Wissenschaftlerinnen und Wissenschaftler be- 
nachteiligen. 

Ein öffentlich-rechtlich regulierter und sektorübergreifender Marktplatz wäre 
folglich wünschenswert. Die Governance-Akteurinnen und -Akteure könnten hier 
faire Marktregeln und -infrastrukturen sowie Vertrags- bzw. Lizenzframeworks 


6 S.a. nachfolgender Beitrag von Vossen und Löser, Kap. 2.1 in diesem Praxishandbuch. 

7 Vgl. European Commission 2014, 3; European Commission 2017, 7, 9, 13; Virkar, Viale Pereira und 
Vignoli 2019, 220, 222-223. 

8 S.a. Beitrag von Scholze, Goebelbecker und Ulrich, Kap. 2.2 in diesem Praxishandbuch. 

9 S.a. Beitrag von Schieferdecker, Kap. 2.3 in diesem Praxishandbuch. 

10 z.B. Dokumentation, Interpretierbarkeit und Aktualität der Daten. 

11 S. z.B. https://www.enisa.europa.eu/topics/data-protection/privacy-by-design. Letztes Abrufda- 
tum der Internet-Dokumente ist der 15.11.2020. 

12 Vgl. z.B. Charalabidis et al. 2018b, 127-136; Charalabidis et al. 2018c, 58-65; Oliveira, Barros 
Lima und Farias Löscio 2019, 618, 624; Virkar, Viale Pereira und Vignoli 2019, 220-221. 

13 European Commission 2017, 12. 
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schaffen. Im deutschsprachigen Raum, konkret in Österreich, findet man einen 
ersten Anlauf hierzu mittels dem Data Market Austria.” 


3 Datenmarktmodell 


Datenöko(-sub*-)system 


Datenmarkt 


Anreize Anreize 


Datenprodukt 
aufbereitet im 
Marktplatz bzw. 


* Datenkuration (Data Cleansing, Qualität, 
Integration/Merging, ...) 

* Dateninterpretation (Serialisierung, Analyse, Extraktion, ...) 
+ Data Discovery (Selektionsmöglichkeiten, Visualisierung, ...) 
+ Datendistribution (Download, Teilen, kollaboratives 
Arbeiten, ...) 


mittels Inter- 
mediäre 


* z.B. Wissenschaftssektor, öffentlicher Sektor, Industrie- und Wirtschaftssektor, Bürgerdaten/-wissenschaft 


Abb. 1: Theoretische Darstellung eines Datenmarktmodells*® 


Die Abb. 1 stellt ein theoretisches Datenmarktmodell bildhaft vor.” Im Mittelpunkt 
steht das jeweilige aufbereitete „Datenprodukt“ im Index bzw. Katalog des spezifi- 
schen Datenmarktplatzes. Die Bereiche Data Discovery und Datendistribution spie- 
len eine wichtige Rolle, denn wenn keine bzw. zu wenige Daten gefunden werden 
können, kann auch kein Wert geschaffen werden.'® Demnach ist ein Dreiklang 
Quantität — Aufbereitung — Qualität wichtig, damit ein spezifischer Datenmarktplatz 
eine bedeutsame Rolle erfährt bzw. einnehmen kann. 


14 S. z.B. Vancauwenberghe und Crompvoets 2018, 80 ff. für Governance-Instrumente. 
15 S. https://datamarket.at. 

16 In Anlehnung an Ghosh 2018, 104; sowie Attard, Orlandi und Auer 2016, 454. 

17 Für ein konkretes, vom Data Market Austria, s. Ivanschitz et al. 2018, 4. 

18 Vgl. Attard, Orlandi und Auer 2016, 455. 
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Fazit 


Die EU gibt hierzu bereits seit vielen Jahren Empfehlungen zur Schaffung geeigneter 
Grundinfrastrukturen und zur Vernetzung von Repositorien, Rechenzentren und 
Portale wie GovData;!? die Planung und Umsetzung in nationalen Aktionsplane ge- 
staltet sich jedoch langwierig und z. T. zögerlich. 

Derzeit sind die verschiedenen Datenmärkte und -marktplätze des Industrie- 
und Wirtschaftssektors, Wissenschaftssektors, öffentlichen Sektors und für die Bür- 
gerinnen und die Bürger noch stark getrennt. Detaillierte Beschreibungen dieser 
Sektoren sind in den nachfolgenden Unterkapiteln zu finden. Aufgrund der besse- 
ren Regulierungs- und Einflussmöglichkeiten ließen sich mittelfristig mutmaßlich 
am ehesten die des Wissenschafts- und öffentlichen Sektors kombinieren?’ und be- 
einflussen. 

Beim kommerziellen Datenmarkt der Industrie- und Wirtschaftssektoren, auf 
den nachfolgend Vossen und Löser eingehen, gelten dagegen meist noch die klassi- 
schen Marktprinzipien bei stark heterogenen Marktplätzen und -nischen, z.B. für 
Personendaten, Firmendaten, Sensordaten, u. v.m.” Die Teilnahme für Akteurinnen 
und Akteure aus den anderen Sektoren, z.B. Bürgerinnen und Bürger sowie Wissen- 
schaftlerinnen und Wissenschaftler, gestaltet sich entsprechend schwierig und un- 
durchsichtig; auch eine Nachnutzung ist aufgrund kommerziell geprägter Lizenz- 
bzw. Vertragsbedingungen z. T. erschwert. 
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Gottfried Vossen und Alexander Löser 
2.1 Kommerzielle Datenmarkte 


Abstract: Der kommerzielle Handel mit Daten hat sich im Rahmen von Digitalisie- 
rung und digitaler Transformation als immer wichtigerer Wirtschaftsbereich eta- 
bliert, in dem Datenmarktplatzen als Handelsplattformen eine Schliisselrolle zu- 
kommt. Es werden mittlerweile neue Geschäftsmodelle identifiziert, die von unter- 
schiedlichen Playern entwickelt und betrieben werden und die ausschließlich auf 
einer Aggregation und anschließenden Nutzung von Daten basieren. Dieses Kapitel 
gibt einen Überblick über die Funktionalität von Datenmarktplätzen mit und ohne 
Feedback-Loop und zeigt deren Entwicklung auf. Dabei betrachten wir einerseits 
den „klassischen“ Ansatz, bei dem große Datensammlungen angelegt, eventuell 
aufbereitet und sodann ganz oder teilweise zum Kauf angeboten werden; in diesem 
Bereich kommen zahlreiche Techniken der Daten-Vorverarbeitung oder des Data 
Cleansing zur Anwendung; ferner hat sich aktuelle Forschung z.B. mit der Frage 
der Preisbildung beschäftigt. Später betrachten wir den an die Plattformökonomie 
angelehnten Ansatz, bei dem sich die gesammelten oder anfallenden Daten durch 
Einsatz von Feedback-Loops selbst aufwerten. Auch wird die Frage betrachtet, in- 
wieweit die einzelne Person vom Handel mit ihren Daten Kenntnis erlangen kann, 
wie sie ihn unterbinden bzw. wie sie selbst Nutzen daraus ziehen kann. 


Einleitung 


Informationen zählen heute zu einer der wichtigsten Ressourcen unserer Gesell- 
schaft, da sie u.a. die Verbreitung und Erzeugung von neuem Wissen ermöglichen. 
In Form von strukturierten, aufbereiteten Daten bieten Informationen einen Wert 
für ein breites Spektrum an Konsumierenden, die durch die Analyse von Daten Un- 
terstützung bei Geschäftsentscheidungen erhalten können. Außerdem können Da- 
ten als Grundlage für Dienstleistungen verwendet oder nach einer angemessenen 
Verarbeitung weiterverkauft werden. Im Zeitalter der umfassenden und inzwischen 
sämtliche Bereiche des täglichen Lebens erreichenden Digitalisierung und digitalen 
Transformation entstehen daher seit mehreren Jahren Marktplätze für Daten in ge- 
wisser Analogie zu Marktplätzen (Börsen) für Aktien, Strom oder andere Waren. We- 
sentlich ist dabei nicht nur der eigentliche Handel mit Daten, sondern deren (Vor-) 
Verarbeitung, Konsolidierung, Anreicherung und insbesondere Analyse, etwa unter 
Verwendung von Information-Retrieval-Techniken, Natural-Language-Processing 
(NLP) oder statistischen Methoden. Anwendungen finden sich u.a. im Marketing, in 
der Finanzindustrie, im Gesundheitswesen oder in der Unternehmenssteuerung 
(Business Intelligence). Insbesondere größere Unternehmen und Fachabteilungen 


8 Open Access. © 2021 Gottfried Vossen und Alexander Löser, publiziert von De Gruyter. CIE] Dieses Werk 
ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-008 
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in Konzernen verfügen oft über spezifisches Wissen für eine Übersetzung von Daten 
in monetär verwertbare Informationen, bspw. Fachwissen in Bezug auf eine spezi- 
elle Kunden- oder Produktnische oder Beziehungen zu potenziellen Kundinnen 
oder Kunden, die bereit sind, für diese Informationen zu bezahlen. 

Zur Analyse von Daten sind im Allgemeinen IT-Infrastrukturen notwendig, die 
Daten aus dem Web oder anderen Quellen sammeln und mit Informationen über 
ihre Herkunft, ihren Inhalt und ihre sprachliche Struktur anreichern. In der Regel 
erfordern derartige Unterfangen eine erhebliche Infrastruktur mit entsprechenden 
Investitionen und erzeugen weitere Kosten für die Aktualisierung von Daten, welche 
sich insbesondere Mittelständler und Fachabteilungen oft nicht leisten können. Ab- 
hilfe schaffen hier die Einrichtung und der Betrieb einer Plattform, die bei hinrei- 
chendem Kundeninteresse in der Lage ist, durch einen Feedback-Loop ihre Daten 
selbst weiter anzureichern und damit deren Wert zu verbessern. 

Dieses Kapitel soll eine Übersicht geben über den Stand bei kommerziellen Da- 
tenmarktplätzen. Es zeigt deren Aufbau auf und geht auf unterschiedliche Arten 
von Datenmarktplätzen ein. Dazu behandeln wir in Abschnitt 1 zunächst Daten- 
marktplätze allgemein mit den Schwerpunkten technischer Aufbau und Preisbil- 
dung und stellen unterschiedliche Klassen von Datenmarktplätzen vor. Abschnitt 2 
behandelt Datenmarktplätze in der Plattform-Ökonomie, durch welche Feedback- 
Loops sowie Techniken der künstlichen Intelligenz einbezogen und genutzt werden. 
Abschnitt 3 beschließt unsere Ausführungen. 


1 Datenmarktplätze 


Mit Daten wurde spätestens seit der Erfindung des Telefons gehandelt, etwa über 
Auskunfteien, aber wahrscheinlich ist der Handel mit Daten sogar älter. Durch den 
Übergang von analogen zu digitalen Daten im Rahmen der weltweit betriebenen Di- 
gitalisierung wurde dies grundsätzlich vereinfacht, wenn auch mit neuen Heraus- 
forderungen versehen, und hat in der Folge rapide zugenommen. Bereits in den An- 
fangsjahren des Internets gab es sog. „Information Broker“, deren Job es war, zu 
bestimmten Themen, die von Auftraggebern vorgegeben wurden, Informationen im 
Web zu sammeln, zu konsolidieren und in angemessener Form zu präsentieren. De 
facto sind Informationsvermittler (laut Wikipedia) „privatwirtschaftliche Unterneh- 
men, die gegen ein Honorar die Recherche von Informationen übernehmen“;! es 
gibt sogar laut Bundesagentur für Arbeit eine Ausbildung zur Informations-Brokerin 
bzw. zum Informations-Broker. Unsere Darstellung in diesem Abschnitt folgt der 


1 https://de.wikipedia.org/wiki/Informationsvermittler. Letztes Abrufdatum der Internet-Doku- 
mente ist der 15.11.2020. 
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von Lange et al.” Durch die fortschreitende Digitalisierung und Automatisierung 
von Anwendungen sind aus Brokern an vielen Stellen Marktplätze geworden; von 
diesen ist im Folgenden die Rede. 


1.1 Aufbau von Datenmarktplätzen 


Datenmarktplätze bieten eine Plattform für den Handel mit Daten als Informations- 
gut im elektronischen Markt und sind grundsätzlich aufgebaut wie in Abb. 1 darge- 
stellt. Der eigentliche Marktplatz umfasst neben Daten auch Algorithmen zu deren 
Bereinigung, Veredelung, Aggregation usw., d.h. zur Anwendung algorithmischer 
Prozeduren, die von Entwicklerinnen oder Entwicklern bereitgestellt werden. Neben 
denjenigen, die Algorithmen-entwickeln, greifen auch diejenigen, die Anwendun- 
gen entwickeln, auf den Marktplatz zu, um Daten für die von ihnen entwickelten 
Anwendungen zu erhalten. Neben Anwendungsentwicklern sind die in Abb. 1 ge- 
zeigten Analysten weitere Kunden, die Daten gegen Geld beziehen und zumeist in 
ihre eigenen Anwendungen integrieren. Auf der anderen Seite fließt Geld an die Da- 
tenlieferanten sowie an die Algorithmen-Entwickler. 

Es sei bemerkt, dass Datenmarktplätze zahlreiche Preismodelle aufweisen (s. 
Abschnitt 1.3). Grundsätzlich ist die Kostenstruktur von Daten eine besondere Her- 
ausforderung, da die Fixkosten in Form von verhältnismäßig hohen, anfänglichen 
Produktions- und Sammelkosten gegenüber den variablen Kosten etwa einer Ver- 
vielfältigung stark dominieren. Preismodelle für Daten von Datenmarktplätzen um- 
fassen daher Ansätze wie Free, Free + Premium = Freemium, Pay-per-Use, Flatrate 
oder Mitgliedschaft sowie Kombinationen dieser. 


Anwendungs 


Analysten 
-Entwickler 4 


Algorithmen- 
Entwickler 


Algorithmen Datenlieferanten 


Datenmarktplatz 


Abb. 1: Grundsätzlicher Aufbau eines Datenmarktplatzes 


2 Vgl. Lange et al. 2018. 
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Abb. 2 zeigt ein detaillierteres Bild eines Datenmarktplatzes, in dem die einzelnen 
Akteurinnen und Akteure genauer spezifiziert werden.’ Der Kern des Marktplatzes, 
nach Abb. 1 bestehend aus Daten und Algorithmen, untergliedert sich meist in meh- 
rere Ebenen, die einerseits die Verarbeitungsinfrastruktur umfassen und anderer- 
seits die entweder bereitgestellte oder zugelieferte Funktionalität. 

Daten können aus öffentlichen oder nicht-öffentlichen Quellen stammen; Inter- 
aktionen (sowie Geldflüsse) finden mit unterschiedlichen Benutzergruppen statt.” 
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Abb. 2: Detailliertere Sicht auf einen Datenmarktplatz 


Die Hauptakteure eines Datenmarktplatzes lassen sich in die drei Gruppen untertei- 
len: Marktplatzbetreibende, diejenigen, die Daten anbieten bzw. verkaufen, sowie 
diejenigen, die Daten kaufen bzw. nutzen. Datenmarktplatzbetreibende fungieren 
als Intermediär zwischen den Kaufenden und Verkaufenden. Ihre Hauptaufgabe be- 
steht dabei im Sammeln der Daten der Anbietenden und dem Verkauf von Daten 
über Datenabfragen. Datenanbietende besitzen Daten, die sie den Datenmarktbe- 
treibenden umsonst, gegen Bezahlung oder gegen eine andere Form der Entschädi- 
gung zur Verfügung stellen; hierbei kann es sich um private Personen handeln, je- 
doch wird zumeist unterschieden zwischen Anbietenden gewerblicher und nicht 
gewerblicher Daten. Daten kauft, wer, wie erwähnt, ein Daten analysiert oder An- 
wendungen entwickelt. Ein Funktionsreferenzmodell für Datenmarktplätze, welche 


3 Vgl. Muschalle et al. 2012, 132. 
4 Weitere Einzelheiten beschreiben Muschalle et al. 2012. 
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zentrale Funktionen eines Datenmarktplatzes anhand der Funktionsgruppen 
Schnittstellen und Sicherheit, Data Service Ecosystem, Datenintegration und Admi- 
nistration ordnet, wurde von Meisel und Spiekermann entworfen.’ 


1.2 Klassen von Datenmarktplätzen 


Die konzeptionelle Betrachtung von Datenmarktplätzen im Hinblick auf deren Cha- 
rakteristika findet sich insbesondere in einer Reihe von Studien, die von Schomm, 
Stahl und Vossen durchgeführt wurden.° Hierbei werden Datenanbietende und Da- 
tenmarktplätze in objektiven und subjektiven Dimensionen analysiert, was eine 
Charakterisierung und vergleichende Übersicht durch gezielte Analyse der einzel- 
nen Kriterien ermöglicht. So lassen sich Datenmarktplätze in vier Hauptklassen 

- kommerzielle Datenmarktplatze, 

- Datenmarktplatze für persönliche Daten, 

- Datenmarktplatze für öffentliche Daten und 

- Schwarzmarkte für gestohlene Daten’ 


einteilen, was in Abb. 3 gezeigt ist. 


Klassen von Datenmarktplatzen 


Kommerzielle 
Datenmarktplatze 


Datenmarktplätze für persönliche 
Daten, z.B. datafairplay.com, 
bitsabout.me 


Allgemein, z.B. 
azuremarketplace.microsoft.com 


Datenmarktplätze für öffentliche 
Daten, z.B. data.gov, healthdata.gov, 
govdata.de 


Spezialisiert, u.a. Geo-, Wetter-, 
Verkehrs-, Adressdaten, z.B. 
factual.com, schober.de 


Schwarzmärkte für gestohlene Daten 


Abb. 3: Klassen von Datenmarktplätzen (nach Lange et al. 2018) 


5 Vgl. Meisel und Spiekermann 2019. 

6 Vgl. Schomm, Stahl und Vossen 2013; Stahl, Schomm und Vossen 2014; Stahl et al. 2016. 

7 S. z.B. https://www.symantec.com/connect/blogs/underground-black-market-thriving-trade-sto- 
len-data-malware-and-attack-services. 
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Die erste und bisher häufigste Klasse der kommerziellen Datenmarktplätze beinhal- 
tet jegliche Datenmarktplätze, die Daten von kommerziellen Datenanbietenden für 
kommerzielle sowie private Datennutzende bereitstellen. Auf beiden Handelsseiten 
stehen bei diesen Datenmarktplätzen häufig gewinnorientierte Unternehmen. Inner- 
halb dieser Klasse lassen sich zwei Unterkategorien bilden: kommerzielle Daten- 
marktplätze mit einem breit gefächerten und eher generellen Datenangebot und sol- 
che, die sich vollständig auf den Handel mit einer bestimmten Datenart spezialisiert 
haben. Unter die generellen kommerziellen Datenmarktplätze fallen Plattformen 
wie Microsoft Azure Marketplace, Statista oder auch Advaneo, da diese ein vielfälti- 
ges Angebot von unterschiedlichen Daten bieten. Die spezialisierten Datenmarkt- 
plätze können weiterhin nach ihrem Datenangebot in nahezu beliebig viele The- 
menfelder unterteilt werden. Ein Beispiel ist CoreLogic, ein Datenmarkt für Liegen- 
schaften und Immobilien; ein weiteres ist Acxiom mit Daten für unterschiedlichste 
Marketing-Anwendungen. In diese Kategorie fällt auch Credit Sesame in China. 

Die zweite Kategorie umfasst den Handel mit privaten und persönlichen Daten. 
Diese Daten werden von Privatpersonen angeboten; persönliche Daten sind hier 
also nicht die Kundendaten eines Unternehmens, sondern beziehen sich auf Infor- 
mationen, die direkt von Privatpersonen preisgegeben (und idealerweise monetari- 
siert) werden. Diese bieten ihre Daten auf dem Datenmarktplatz gegen eine Entschä- 
digung (zumeist in Form einer bestimmten Funktionalität oder einer Dienstleistung) 
an. Auf der Käuferseite stehen hier wie bei den kommerziellen Datenmarktplätzen 
hauptsächlich Unternehmen, deren Datenanalyse diese Daten für ihre Unterneh- 
menszwecke, wie beispielsweise Marketingstrategien, gewinnbringend einsetzen 
möchten. Neben DataFairPlay und BitsAboutMe ist hier auch bridgit.io zu nennen. 

Die Kategorie Datenmarktplätze für öffentliche Daten? schließt alle Datenange- 
bote ein, die kostenlos für jeden frei zugänglich sind. Dies beinhaltet vor allem die 
Datenbereitstellung durch Regierungen und öffentliche Verwaltungen, die ihre Da- 
ten wie beispielsweise statistische Auswertungen oder Protokolle im Internet zur 
Verfügung stellen. Auf der Nutzerseite dieser Datenmarktplätze finden sich neben 
rein privaten Nutzenden und Unternehmen auch kommerzielle Datenmarktplätze. 
Diese benutzen die kostenlosen Daten, um ihr eigenes Datenangebot zu vergrößern 
oder durch Kombination mit eigenen Daten den Datensätzen neuen Wert beizufü- 
gen, ein Vorgehen, das insbesondere von Start-ups häufig praktiziert wird. In bei- 
den Fällen verbessert sich durch ein breites Datenangebot die Möglichkeit, neue 
Kundinnen und Kunden zu gewinnen. Die letzte Kategorie der Schwarzmärkte für 
Daten darf nicht unbeachtet bleiben, sofern der Markt und der Handel von Daten 
vollständig betrachtet werden sollen. Wie für viele andere Handelsgüter gibt es 


8 S.a. Beitrag von Schieferdecker, Kap. 2.3 in diesem Praxishandbuch. 
9 Wie das amerikanische Portal https://www.data.gov/, das britische https://data.london.gov.uk/ 
oder das deutsche https://www.govdata.de. 
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auch für Daten illegale Handelsplattformen, auf denen unrechtmäßig beschaffte 
oder gesetzeswidrig gesammelte Daten verkauft werden. 

Neben diesen Klassen von Datenmarktplätzen können auch unterschiedliche 
Arten des Datenhandels unterschieden werden: Letzterer kann verdeckt erfolgen, 
z.B., wenn mit Kundendaten, Logdaten oder Ähnlichem gehandelt wird, ohne dass 
diejenigen, die die Daten eigentlich erzeugen, davon Kenntnis erhalten. Verdeckter 
Handel liegt z.B. vor, wenn Google oder Facebook Nutzerdaten zum Advertising 
nutzen oder verkaufen. Demgegenüber liegt offener Datenhandel vor, wenn mit Da- 
ten über einen Marktplatz gehandelt wird, zu dem jeder Mensch Zugang hat, der die 
Eingangsbedingungen (sofern es solche gibt) erfüllt. 


1.3 Preisbildung 


Das Festsetzen von Preisen für Daten ist von zentraler Bedeutung für jeden Daten- 
marktplatz und zudem eine besondere Herausforderung. Wie bei anderen Gütern 
auch ist die Bestimmung des Wertes von Daten für die Käuferin bzw. den Käufer 
von essentieller Bedeutung für eine Preisfindung. Die Schwierigkeit liegt darin, dass 
dieser Wert zumeist nicht bekannt ist. Ebenfalls wie bei anderen Gütern hängt der 
Wert von Daten von der Marktsituation und dem Verhältnis von Angebot und Nach- 
frage ab. Demnach führt ein großes Datenangebot bei gleichzeitig geringer Nachfra- 
ge zu einem geringeren Wert der Daten und umgekehrt. Hinzu kommt, dass der Ge- 
brauchswert von Daten, die ja auf einfache Weise beliebig vervielfältigbar sind, mit 
der Zeit abnimmt und dass der Wert von Informationsgütern subjektiv ist und von 
verschiedenen Personen als unterschiedlich hoch empfunden wird. Daher fehlt Da- 
tenanbietenden oftmals das Verständnis für den Wert ihrer Daten für Konsumieren- 
de, zumal eine zuverlässige Methode für die Bestimmung des Wertes von Datensät- 
zen bisher nicht existiert. Durch den engen Zusammenhang des Wertes von Daten 
mit der Einschätzung der Konsumierenden ergibt sich, dass der Wert und damit 
auch der Preis von Daten in Abhängigkeit von den Nachfragenden bestimmt werden 
muss; Beispiele für entsprechende Ansätze liefern Stahl et al.!° sowie Stahl und Vos- 
sen." 

Es hat verschiedene Versuche gegeben, den Wert insbesondere persönlicher Da- 
ten zu ermitteln. Ein bekanntes Beispiel ist ein von der Financial Times entwickelter 
Rechner,” mit der Privatpersonen vielleicht nicht den absoluten Wert ihrer persönli- 
chen Daten ermitteln können, der aber zumindest zeigt, wie der Wert in Abhängig- 
keit von z.B. Familienstand oder Besitz allmählich steigt. Ein weiterer Ansatz zur 


10 Vgl. Stahl et al. 2015. 
11 Vgl. Stahl und Vossen 2016; Stahl und Vossen 2017. 
12 S. https://ig.ft.com/how-much-is-your-personal-data-worth/. 
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groben Ermittlung des Werts persönlicher Daten ist der Vergleich der Preise, die bei 
Akquisitionen gezahlt werden (etwa die von WhatsApp durch Facebook oder die 
von LinkedIn durch Microsoft). Man vergleiche hierzu auch die Ergebnisse der Stu- 
die von Goldhammer und Wiegand 2017. 

Preisfindung steht auch im Fokus verschiedener Forschungsaktivitäten. Sämtli- 
che Anforderungen an Preismodelle lassen sich in die drei Kategorien logische, 
technische und 6konomische Anforderungen gliedern. Zu den logischen Anforde- 
rungen gehören all jene, deren Ziel ein logisch einwandfreies Preismodell darstellt. 
Hierzu zählt beispielsweise die Anforderung der Arbitrage-Freiheit, was bedeutet, 
dass für die Datenkäuferin bzw. den Datenkäufer keine Möglichkeit bestehen darf, 
die Antwort auf eine teure Datenanfrage durch ein Zusammensetzen von Antworten 
mehrerer günstigerer Anfragen zu erhalten. Die Forschung in diesem Bereich geht 
insbesondere zurück auf Koutris et al.” Tang et al. gehörten zu den ersten, die Da- 
tenqualität in die Preisbildung einbezogen haben; diese Idee wurde von Stahl und 
Vossen aufgegriffen und weitergeführt. Insbesondere kann eine Benutzerin bzw. 
ein Benutzer dort zwischen unterschiedlichen berechenbaren Qualitätskriterien 
(wie Aktualität oder Vollständigkeit) wählen, diese gewichten und sie bzw. er erhält 
dann ein Datenprodukt, das diesen Wünschen entspricht. Unter die technischen An- 
forderungen an Preismodelle fallen jegliche Anforderungen, die die technische Um- 
setzung und Ausführung der Preismodelle adressieren, beispielsweise eine mög- 
lichst kurze Rechenzeit eines automatischen Preisfindungssystems oder einer Anfra- 
gebeantwortung. In der Literatur finden sich ferner Arbeiten zur Preisfindung, 
welche die ökonomischen Aspekte von Datenmarktplätzen, etwa die Fairness von 
Preismodellen einschließen. 

Weiterhin lassen sich Preismodelle nach den Basiseinheiten der Daten unter- 
scheiden; gängig sind einzelne Records, Datenobjekte oder Sichten (Views), wobei 
Tupel eine feinere Granularität als Views aufweisen. Ferner lassen sich Preismodelle 
in anfragebasierte und qualitätsbasierte Preismodelle untergliedern. Bei ersteren 
werden die Preise für Daten anhand der getätigten Datenbankanfragen durch Kon- 
sumierende bestimmt. Dabei existieren verschiedene Methoden, den Preis für eine 
Antwort auf eine Anfrage zu berechnen; häufig berechnen Preisfunktionen den 
Preis von Daten basierend auf festen Beträgen je konsumierter Basisdateneinheit, 
also je Datentupel oder je View. Hierfür muss das Preismodell bestimmen können, 
aus welchen Basiseinheiten die Antwort auf eine Anfrage zusammengesetzt wur- 
de. 


13 Vgl. Koutris et al. 2015. 

14 Vgl. Tang et al. 2014. 

15 Vgl. Stahl und Vossen 2016; Stahl und Vossen 2017. 

16 Für weitere Einzelheiten zu den einzelnen Preisfindungsansätzen vgl. Lange et al. 2018 und 
Stahl et al. 2015. 
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Interessanterweise wird in allen genannten formalen Preismodellen bisher le- 
diglich fiir Daten, also Anfrageergebnisse ein Preis berechnet, nicht jedoch fiir die 
Ausführung der Berechnung selbst. In der Realität ist dies oft anders, denn wie in 
den Abb. 1 und 2 gezeigt umfasst ein Datenmarktplatz typischerweise auch die Be- 
rechnungsfunktionalität, deren Nutzung sich die Betreibenden bezahlen lassen. Ein 
erster Ansatz zur gleichzeitigen Betrachtung von Daten- und Berechnungskosten 
findet sich bei Martins et al.;!” einer Benutzerin bzw. einem Benutzer steht hier eine 
Reihe vorgegebener Anfragen zur Verfiigung, die jeweils mit einem Preis versehen 
sind. Sie bzw. er kann diese Anfragen gewichten, um durch ihre Ausfiihrung ein 
möglichst optimales (Daten-)Ergebnis zu erzielen als auch ein vorgegebenes Budget 
nicht zu überschreiten. Das Problem lässt sich als Knapsack-Optimierungsproblem'® 
formulieren, was zur Folge hat, dass auf approximative Algorithmen zu seiner Lö- 
sung zurückgegriffen werden muss. 


2 Datenmarktplätze in der Plattform-Ökonomie 


In diesem Abschnitt wird auf die neueren Entwicklungen im Bereich Datenmarkt- 
plätze eingegangen, die sich von den bisher Beschriebenen wesentlich durch das 
Vorhandensein eines Feedback-Loops unterscheiden. Dieser liefert dem Betreiben- 
den mehr Daten, was bessere Analysen erlaubt, aus denen sich bessere Datenpro- 
dukte ergeben. Hieraus resultieren schließlich zufriedenere Kundinnen und Kun- 
den, was sich wiederum in mehr Empfehlungen sowie in Neukundinnen und 
-kunden niederschlägt. 


3.1 Datenmarktplätze und der Feedback-Loop 


Idealerweise sollte ein Datenmarktplatz mit jeder Transaktion, z.B. einer verkauften 
Daten- oder Serviceeinheit einen besseren Service anbieten können und dadurch 
noch mehr Kundschaft anlocken können. Allerdings wissen diejenigen, die den Da- 
tenmarktplatz betreiben, oft nicht, was genau mit den Daten nach Kauf geschieht, 
also z.B. in welches maschinell gelernte Modell diese Daten einfließen. Fast immer 
haben zudem die Datenmarktplatzbetreibenden keine Rechte zur Verwertung des 
Modells. 


17 Vgl. Martins et al. 2019. 

18 Beim Knapsack- oder Rucksack-Problem geht es darum, für einen Rucksack mit begrenzter Ka- 
pazität Dinge zum Mitnehmen so auszuwählen, dass ihr Nutzen optimiert, aber die Kapazitätsbe- 
schränkung eingehalten wird, vgl. https://en.wikipedia.org/wiki/Knapsack_problem. 
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Den Datenmarktplatzbetreibenden fehlt damit ein wichtiges Element, der 
„Feedback-Loop“, der den Betreibenden z.B. wertvolle Informationen über die Qua- 
lität bzw. den „Wert“ der angebotenen Daten für eine spezifische Branche geben 
könnte. Vielmehr implementieren aktuelle Datenmarktplätze oft noch immer das 
„Pipeline“-Modell eines Extract-Transform-Load-Prozesses (ETL) eines Data Wareh- 
ouse für möglichst zahlreiche Kundinnen und Kunden. Sie skalieren so mit der Fä- 
higkeit, neue Kundschaft zu gewinnen, die sich von der Verwendung der Daten auf 
dem Marktplatz in eigenen Analysen und Datenprodukten einen Mehrwert verspre- 
chen. Diese Skalierbarkeit ist jedoch, im Vergleich zu Unternehmen, die direkt Mil- 
lionen Endkundinnen und -kunden sowie Haushalte ansprechen können, auf einen 
verhältnismäßig kleinen Kundenstamm von Business-Kundschaft begrenzt. Daher 
müssen die Datenmarktplatzbetreibende ihre Kosten für die Entwicklung der Platt- 
form und zur Akquise der Kundschaft (Customer Acquisition Costs) auf diese weni- 
gen Kundinnen und Kunden umlegen und versuchen, trotzdem ein qualitativ at- 
traktives Angebot bereitstellen zu können. 

Parallel zu diesem Paradigma hat sich ein ganzer Wirtschaftszweig um das Pa- 
radigma des Multi-Sided-Markets'” und der Plattformökonomie” entwickelt. Ein 
sehr frühes Beispiel für Deutschland sind die Unternehmen Interhyp AG und die 
Ende der 1990er Jahre gegründete Hypoport AG wurde, die heute wichtige Prozesse 
der Immobilienfinanzierung zwischen Banken und den Käuferinnen und Käufern 
vermittelt. Das Unternehmen wurde durch das Plattformgeschäft eines der ersten 
„Unicorns“ in Deutschland. Dabei sammelt das Unternehmen zahlreiche Daten über 
Kern-Entitäten wie die Käuferin bzw. den Käufer, die Bank bzw. das Kreditprodukt 
oder die Immobilie. Anhand dieser Daten erfolgt dann ein Matching der Käuferin- 
nen bzw. Käufer und der Wunschimmobilie mit Angeboten der Kreditfinanzierung 
und damit ein potenzielles Angebot an die Kundin bzw. den Kunden. Nimmt die 
Kundin bzw. der Kunde das Angebot wahr, werden die Profile der Kern-Entitäten 
mit den Daten aus der erfolgten Transaktion erweitert. Dadurch kann das Matching 
bei einer ähnlichen Kundschaft bzw. Immobilie noch genauer mögliche Kreditin- 
strumente zuordnen. Die Servicequalität erhöht sich und damit oft auch die Kun- 
denzufriedenheit und die Weiterempfehlungsquote. Dadurch kommen neue Kun- 
dinnen bzw. Kunden und weitere transaktionale Daten können das Matching noch 
weiter verbessern. 

Noch bekannter ist Amazon Inc., das ab 2004 Anbietende von Büchern an eine 
Kundschaft vermittelte und den Prozess des Einkaufs, „Schaufensterbummel“, Kau- 
fen und Liefern, in einem Feedback-Loop implementierte. Zunächst erfolgte der 
Feedback-Loop auf einem schwachen Signal, nämlich wenn eine Kundin bzw. ein 
Kunde für mehrere Bücher Interesse zeigte, diese also beispielsweise innerhalb ei- 


19 Vgl. Gassmann et al. 2018. 
20 Vgl. Cusumano et al. 2019. 
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ner Session anschaute. Auf Basis dieses Signals wurde eine Recommendation-Engi- 
ne angewandt: Ahnliche Kundinnen bzw. Kunden erhielten ebenfalls die Biicher ih- 
rer Peer-Gruppe angezeigt. Erste Versuche zeigten, dass dieser ,,Proxy“ fiir das Kun- 
deninteresse zu schwach war. Daher wurden im zweiten Versuch nur noch Biicher 
für die Recommendation-Engine als Trainingsdaten verwendet, die tatsächlich auch 
zusammen gekauft wurden. Dieser Ansatz funktionierte deutlich besser. Der Feed- 
back-Loop, das Lernen aus dem Verhalten der Kundschaft aus der Vergangenheit, 
und die Vereinfachung des Bucheinkaufs fiihrten zu einem hohen Anstieg der Kun- 
denzufriedenheit. Dadurch benutzten immer mehr Käuferinnen und Käufer die 
Empfehlungsseite von Amazon. Das führte zu mehr Varianz in den Kundenprofilen 
und insgesamt zu mehr Kundschaft in den Kern-Entitäten — oder Profilen - wodurch 
die Recommendation-Engine wiederum bessere Empfehlungen geben konnte. Ein 
Feedback-Loop war entstanden, bessere Daten gaben bessere Analysen, diese er- 
möglichten bessere Datenprodukte und diese zogen mehr Kundschaft an, wodurch 
wiederum zusätzliche komplementäre Daten dem Unternehmen zu Kundinnen bzw. 
Kunden zur Verfügung standen. Letzten Endes konnten auch die Entwicklungskos- 
ten der Plattform und der Feedback-Loop auf hunderte von Millionen von Transak- 
tionen umgelegt werden und somit standen insgesamt mehr Gelder für die Weiter- 
entwicklung der Plattform zur Verfügung. 


3.2 Wiederverwendung von Profilen und Plattformtechnologie in 
weiteren Datenprodukten 


Amazon sammelte schließlich in zahlreichen anderen Prozessen mit einem Feed- 
back-Loop weitere Daten zu Profilen der Anbietenden von Büchern, z.B. zur Liefer- 
verfügbarkeit, Pünktlichkeit, Qualität der Lieferung etc., und zu anderen Profilen, 
zunächst Bücher (wer kauft welches Genre, welche Qualität, Preissegmente etc.), 
aber auch zu anderen Produkten, wie Elektronik, Computer, Videos, Musik und 
schließlich sogar zu Lebensmitteln. Diese neuen Profile verwendete Amazon dann 
zunächst zur Optimierung der Qualität in weiteren Prozessen, wie dem Anbieten 
von Bezahlung auf Kredit, der Bewertung der Lieferantenbeziehungen und -ketten, 
der proaktiven Lagerhaltung, dem Schalten von Werbung und Marketinginstrumen- 
ten bis hin zur Ausrichtung der Produktion aufkommende Trends. Über die letzten 
zwei Dekaden konnte Amazon so in immer mehr Prozesse unseres privaten und ge- 
schäftlichen Lebens attraktive, personalisierte Datenprodukte auf seiner Plattform 
anbieten. Dabei konnte das Unternehmen die Kosten für die Entwicklung eines Da- 
tenproduktes durch Wiederverwendung existierender Profile senken und zahlreiche 
Feedback-Loops etablieren, die immer weiter die zentralen Profile der Kern-Entitä- 
ten in ihrem Multi-Sided-Markt verbessern. 

Dadurch entstand ein Zyklus: Einerseits konnte das Unternehmen schnell und 
kosteneffektiv neue Datenprodukte durch Wiederverwendung von Profilen, skalier- 
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barer Plattformtechnologie sowie genormten Schnittstellen zu Datenprodukten und 
Profilen, Micro-Services, entwickeln. Auf der anderen Seite waren die Produkte sehr 
kundenfreundlich, schließlich gab es ja bereits viel Wissen über die Kundschaft 
oder zumindest ihre Peer-Gruppe aus anderen Datenprodukten, das immer öfter 
wiederverwendet und angereichert wurde. Dadurch konnten immer mehr Kundin- 
nen und Kunden gewonnen werden und jede Kundin bzw. jeder Kunde zahlte einen 
kleinen Anteil mit jeder Transaktion an den Entwicklungskosten der Datenplatt- 
form. 


3.3 Deep Learning zur Repräsentation von Geschäftsentitäten 


Die technischen Möglichkeiten des Umgangs mit großen Datenmengen und das tiefe 
Lernen auf CPU bzw. später GPU-Clustern hat zusätzlich die Entwicklung von Da- 
tenprodukten in der Plattformökonomie vereinfacht. In den 2000ern wurde das Pro- 
fil einer Kundin bzw. eines Kunden, eines Lieferanten, einer Werbung oder eines 
Mitbewerbers bzw. einer Mitbewerberin oft noch in einigen wenigen bis zu hunder- 
ten Spalten einer Tabelle — oder Attributen eines Knowledge Graphen - repräsen- 
tiert. Dieser Ansatz resultierte aus der Möglichkeit, diese Profile zunächst ggf. aus 
einem Data Warehouse, aus Datenbanken oder Log-Dateien von Webservern wie- 
derzuverwenden. 

Die Daten wurden aufgrund von Compliance- und Reporting-Anforderungen 
schon vorgehalten und sollten jetzt für einen weiteren Zweck wiederverwendet wer- 
den. Die damaligen Lernverfahren benutzen oft Techniken des manuellen Feature- 
Engineerings, um aus diesen Tabellen die richtigen Merkmale für die Matching- 
Funktion des Datenproduktes abzuleiten. Diese Methodik ändert sich seit Beginn 
der 2010er Jahre massiv durch die Anwendung von Deep-Learning-Verfahren. Deep 
Learning erlaubt eine deutlich umfangreichere und vor allem latente Repräsentati- 
on der Profile durch Tausende bis Millionen von Neuronen in sehr tiefen Netzwer- 
ken; das aktuelle Netzwerk BERT”! zur Repräsentation von Sprache, z.B. in Kom- 
mentaren zu Produkten, erlaubt mehrere hundert Millionen von Neuronen. Dadurch 
konnten die Plattformbetreibenden noch mehr Daten aus noch mehr Transaktionen 
deutlich mehr Feinheiten und auch Anomalien unter den Profilen für Kundinnen 
und Kunden, Lieferanten etc. abbilden. Profile auf Basis von Deep Learning können 
aufgrund dieser umfangreichen Parameter daher noch stärker die Feinheiten der 
unterschiedlichen Wünsche der Kundschaft für das Matching berücksichtigen. Die- 
ser Schritt von einer symbolischen Repräsentation von Kunden, Profilen oder Objek- 
ten, mit hunderten von Merkmalen zu einer eher latenten Repräsentation mit Millio- 
nen von Parametern findet derzeit überall statt. Er erlaubt viel feingranularer auch 


21 Vgl. Devlin et al. 2019. 
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die Anomalien und Nischen über ein Merkmal oder eine Vielzahl von Merkmals- 
kombinationen abzubilden. Genau diese feinen Nuancen werten ggf. ein Datenprofil 
auf und machen es umso wertvoller (siehe auch der Rechner der Financial Times 
zum Wert des eigenen Datenprofils im Abschnitt Preisbildung). 

Auf der anderen Seite ermöglicht Deep Learning oft auch die multimodale Da- 
tenintegration. Beispielsweise hat das Unternehmen Zalando in der FashionDNA” 
bildliche, tabellarische und textuelle Attribute seiner Produkte in einem 200-dimen- 
sionalen Vektorraum abgebildet. Damit kann das Matching zwischen Suchanfrage 
und Produktkatalog nun erstmals auch komplexe Anfragen, wie z.B. „Hippie-Bluse 
mit Troddeln“ matchen, deren Worte nur von wenigen Kundinnen bzw. Kunden 
stammen und damit auch nicht in den Metadaten der Produkte der Hersteller abge- 
bildet sind. Das Verfahren lernt vielmehr aus dem Archiv/der Historie Assoziationen 
der Suchbegriffe mit dem Klickverhalten der Kundschaft und kann, als Nebeneffekt 
des Matchings, sogar die Profile der Kundinnen und Kunden sowie der Produkte 
weiter augmentieren. 

In der Zwischenzeit dominieren die Unternehmen der Plattformökonomie welt- 
weit die „klassischen“ Unternehmen. Die Top-5 Unternehmen der Plattform-Ökono- 
mie in den Vereinigten Staaten (Apple, Amazon, Facebook, Microsoft und Alphabet) 
haben zusammen einen Marktwert von mehr als 3000 Milliarden Euro,” das ist un- 
gefahr die Größenordnung des Bruttoinlandsproduktes von Deutschland. Analog 
gilt das für die größten Unternehmen in Asien, wie Alibaba, Tencent, Samsung, 
Didi Chuxing, Baidu, oder Meituan. 

Auch das oben bereits behandelte Thema der Preisbildung wird im Kontext von 
Datenmarktplatzen, die maschinelles Lernen einsetzen, neu diskutiert. Chen et al. 
beschreiben z.B. eine Modell-basierte Preisfindung, bei der nicht mehr die Daten 
bepreist werden, sondern die Instanzen des verwendeten Machine-Learning-Mo- 
dells.” Ein weiterer Gegenstand der Preisbildung sind Trainingdaten für KI-Anwen- 
dungen bzw. für Anwendungen des maschinellen Lernens”. 


22 Vgl. Bracher et al. 2019. 

23 Vgl. Holger Schmidt, https://www.netzoekonom.de/plattform-index/. 
24 Vgl. Chen et al. 2019. 

25 Vgl. Agarwal et al. 2019. 
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TILL, ret 
RESELL. 


m: Al-Product(Customer, Supplier, Product, Competitor), Al-Product 2,Al-Product3, ... 


Abb. 4: Feedback-Loops erzeugen neue transaktionale Daten fiir das maschinelle Lernen. Dadurch 
werden Kundinnen-/Kunden- und Lieferantenmodelle, Wettbewerberradar etc. des Plattformanbie- 
ters verbessert. Diese verbesserten Dienstleistungen fiihren zur besseren Kundenzufriedenheit. Zu- 
friedene Kundinnen und Kunden geben Weiterempfehlungen, wodurch noch mehr Menschen die 
Plattform nutzen und zusätzliche transaktionale Daten in das maschinelle Lernen der Dienste der 
Plattformbetreibenden fließen. Diese verbesserte Servicequalität schafft dadurch Netzwerkeffekte, 
die Plattform erreicht neue Kundinnen und Kunden und skaliert. Rückkopplungsschleifen verbes- 
sern existierende Al-(Daten)-Produkte bzw. ermöglicht die Schaffung neuer Datenprodukte. 


3 Fazit und Ausblick 


Datenmarktplätze greifen den Gedanken auf, Daten auf zwei-(oder mehr-)seitigen 
Märkten zu handeln. Dabei übernimmt der oder die Besitzende des Marktplatzes die 
Funktionen der Präsentation, des Matchings, der Preisgestaltung und des Vertriebs. 
Datenmarktplätze existieren für einige Domänen schon sehr lange, in den frühen 
2010ern wurde dieses Konzept vertieft wissenschaftlich untersucht. Datenmarktplät- 
ze sind ein typisches Business-to-Business-Produkt und imitieren in Teilen Techno- 
logien des ETL bzw. in der Bereitstellung von Datenpipelines. Allerdings werden 
auch bereits Überlegungen angestellt, dass Daten in Zukunft zum vollständigen 
Geld- bzw. Preisersatz werden könnten.” 

Die Plattformökonomie hat in den letzten zwei Dekaden eine deutlich bessere 
Möglichkeit der Skalierung des Geschäftsmodells erreicht als die Datenmarktplätze. 
Wichtige Elemente sind Businessmodelle auf Basis von Multi-sided Markets, Profi- 
len von Kern-Entitäten oder Matching-Funktionen für die Optimierung zentraler Ge- 
schäftsmetriken (Key Performance Indicators) wichtiger Businessprozesse. Ebenfalls 
dazu gehören Feedback-Loops, die Profile weiter anreichern, Matching-Funktionen 


26 Vgl. Ramge und Mayer-Schönberger 2017. 
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und Datenprodukte verbessern und so neue zufriedene Kundinnen und Kunden ge- 
winnen können. Durch Wiederverwendung der Profile in zahlreichen Geschäftspro- 
zessen und Datenprodukten, standardisierten Schnittstellen (Micro-Services) und 
dem Einsatz von Deep Learning konnten die Kosten für die Entwicklung der Platt- 
form und der Datenprodukte weiter gesenkt werden. Auf der anderen Seite konnten 
durch den Neugewinn der Kundinnen und Kunden nicht nur reichere Profile erzielt 
werden, vielmehr können auch die Kosten für die Entwicklung der Plattform auf 
mehrere Kundinnen und Kunden umgelegt werden. Aktuell dominieren amerikani- 
sche und asiatische Unternehmen die Plattformékonomie,”’ insbesondere in zahlrei- 
chen, sogenannten Winner-takes-most- oder Business-to-Customer-Märkten. Im 
Business-to-Business-Geschäft ist die Plattformökonomie noch weniger vertreten 
und hier bieten sich Chancen für die europäische Industrie. 

Neue Trends zeigen sich bereits in dem Zusammenschluss führender Plattform- 
Monopole und dem Versuch des Austauschs von Profilen über verschiedene kom- 
plementäre Plattformen hinweg. Ein Beispiel ist die Einführung der Crypto-Platt- 
form von Libra von Facebook. Über eine in der Schweiz registrierte Legal-Entity, die 
Libra Association,” haben sich erstmals mehrere Vertreter der Plattformökonomie 
geeinigt, Transaktionen in deren Plattformen und den Bezahlverkehr gemeinsam zu 
regeln. Diese Unternehmen decken weltweit größtenteils komplementäre Märkte ab 
bzw. formen in den Märkten ein Monopol bzw. Oligopol. Dazu gehören Facebook 
(Werbung), Music Streaming (Spotify), Online-Zahlungsverkehr (Paypal, Visa, Mas- 
tercard, Stripe), Telco (Vodafone), Online-Marktplätze (eBay), Fahrdienstvermittler 
(Uber, Lyft) sowie Finanzdienste (Coinbase und Kiva).” Technologisch basiert das 
Konzept für den Austausch der Profile und der Transaktionen auf sog. Permissioned 
Blockchains. Diese kryptographisch geschützte, über Unternehmensgrenzen hinweg 
verteilte Datenstruktur erlaubt nur ausgesuchten, vorher registrierten Unternehmen 
das Lesen und Schreiben von Transaktionen und eignet sich besonders gut für Oli- 
gopole. Auch hier sind spezielle Datenmarktplatze in der Entwicklung.” 


27 Vgl. „Künstliche Intelligenz: Potenzial und nachhaltige Veränderung der Wirtschaft in Deutsch- 
land“ Studie: Arthur D Little, Vodaphone und Eco 2019. 

28 S. https://www.diem.com/en-us/association/. 

29 S.a. Facebook.com Spotify.com, PayPal.com, Visa.com, Mastercard.com, Stripe.com Vodafone. 
com, eBay.com, uber.com, Lyft.com, Coinbase.com, Kiva.com. 

30 Vgl. Travizano et al. 2018. 
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Frank Scholze, Robert Ulrich und Hans-Jürgen Goebelbecker 
2.2 Wissenschaftlicher Datenmarkt 


Abstract: Anhand von Forschungsdatenrepositorien (FDR) zur Speicherung, Bereit- 
stellung und Nachnutzung digitaler Daten aus und fiir die Wissenschaft werden ver- 
schiedene Aspekte des Austauschs von Forschungsdaten beleuchtet, um so eine em- 
pirisch-näherungsweise Beschreibung des wissenschaftlichen Datenmarktes zu er- 
halten. Der wissenschaftliche Datenmarkt ist historisch gesehen von einem hohen 
Grad an Heterogenität und Dynamik geprägt und wenig durch Standards und fach- 
bereichsiibergreifende Best-Practices strukturiert. Diese Eigenschaften spiegeln sich 
in der gegenwartigen digitalen Transformation der Wissenschaften wider, die einer- 
seits diese Merkmale sichtbarer werden lässt und befördert, andererseits auch die 
immensen Potentiale von Standardisierung, Nachhaltigkeit, Transparenz und Re- 
produzierbarkeit über Fachgebiete hinweg aufzeigt und greifbar werden lässt. 


Einleitung 


„Auch Daten haben Schicksale und Konjunkturen“, diagnostiziert Beat Immenhau- 
ser, „gegenwärtig stehen diese im Hoch, eine Kehrtwende ist nicht in Sicht.“! Daten 
werden in allen Wissenschaftsdisziplinen produziert, analysiert und rekombiniert. 
Sie sind Teil der digitalen Transformation der Wissenschaften. Im Folgenden wird 
nach einer Begriffsklärung versucht, in konziser Form einzelne Aspekte und Funk- 
tionen des wissenschaftlichen Datenmarktes zu beschreiben. 


1 Begriff 


Der Begriff Markt (von lateinisch mercatus „Handel“, zu merx „Ware“) bezeichnet 
allgemein einen realen oder virtuellen Ort, an dem materielle oder immaterielle Wa- 
ren regelmäßig gehandelt, d.h. ausgetauscht werden. Unter Daten in der Wissen- 
schaft, meist auch als Forschungsdaten bezeichnet, versteht man (inzwischen fast 
ausschließlich) digital vorliegende Daten, die während des Forschungsprozesses 
entstehen oder sein Ergebnis sind. Der Forschungsprozess umfasst dabei verschie- 
dene Schritte, angefangen mit der Nutzung bereits verfügbarer Forschungsdaten 
oder ihrer Generierung, wobei verschiedenste Formen, wie ein Experiment in den 


1 Immenhauser 2018, 261. 
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Naturwissenschaften, eine Prozessmodellierung in Form von Software oder eine em- 
pirische Studie in den Sozialwissenschaften, denkbar sind. Weiter umfasst der For- 
schungsprozess die Erhebung und Verarbeitung sowie die Analyse und Bewertung 
von Forschungsdaten. Daran schließt sich die Distribution eines Forschungsergeb- 
nisses, klassischerweise in Form einer Publikation an. In einer digitalisierten For- 
schung ist die Veröffentlichung immer mit einer Publikation und der Archivierung 
der Forschungsdaten verknüpft.? 

So wie sich der Markt der Forschungsdaten in den gesamten Forschungsprozess 
einbettet, so vielgestaltig sind die Marktteilnehmer. Neben den Forschenden reicht 
dies von Förderorganisationen und privaten Drittmittelgebern über Universitäten 
und Forschungseinrichtungen bis hin zu Journalen und Verlagen. 

Anhand dieser Definitionsversuche wird deutlich, dass es sich bei dem Begriff 
„Wissenschaftlicher Datenmarkt“ nur um einen unscharfen handeln kann, da der 
Austausch von Forschungsdaten (Markt) nur bedingt im Sinne von Angebot und 
Nachfrage funktioniert und als Ganzes nur schwer direkt mit einem monetären, wis- 
senschaftlichen oder gesellschaftlichen Wert quantifiziert werden kann. Gleichzeitig 
ist eine klare Abgrenzung zu den Themenfeldern kommerzieller Datenmarkt und In- 
formationen des öffentlichen Sektors (Government Data?) nicht möglich. Vielmehr 
handelt es sich um drei überlappende Bereiche. Im Folgenden wird versucht, an- 
hand einer Fokussierung auf die Forschungsdatenrepositorien, die Landschaft der 
real verwendeten Austauschplattformen für den Bereich zu skizzieren. Es wird be- 
wusst der Begriff Forschungsdatenrepositorium (FDR) verwendet und nicht z.B. Da- 
tenbank oder Data Management Platform. Dies sind Termini, die hauptsächlich im 
privatwirtschaftlichen Umfeld verwendet werden. 

Bei einem FDR handelt es sich um ein System zur Speicherung, Bereitstellung 
und Nachnutzung digitaler Daten aus und für die Wissenschaft.“ Die oben beschrie- 
bene Unschärfe zeigt sich auch in der schwierigen Abgrenzung zu virtuellen For- 
schungsumgebungen, elektronischen Laborbüchern und anderen Datenplattfor- 
men. Aus diesem Grund gibt es auch keine abschließende Definition oder Funkti- 
onsbeschreibung, sondern lediglich vertiefte Beschreibungen von FDR einzelner 
Wissenschaftsdisziplinen, z. B. der Biomedizin.° 


2 Vgl. Kindling 2013. Dies entspricht der Definition der Allianz der deutschen Wissenschaftsorga- 
nisationen, s. https://www.allianzinitiative.de/archiv/forschungsdaten. Letztes Abrufdatum der In- 
ternet-Dokumente ist der 15.11.2020. 

3 S.a. Beitrag von Schieferdecker, Kap. 2.3 in diesem Praxishandbuch. 

4 Vgl. https://www.forschungsdaten.info/themen/bewahren-und-nachnutzen/repositorien. 

5 Vgl. Pampel 2015, 17. 


2.2 Wissenschaftlicher Datenmarkt — 167 


2 Forschungsdatenrepositorien 


Trotz der definitorischen Unschärfe erscheinen FDR hinreichend geeignet, den wis- 
senschaftlichen Datenmarkt zu beschreiben. Ganz nach der Wittgenstein’schen Ma- 
xime, dass man darüber schweigen müsse, worüber man nicht sprechen könne, 
kann nicht der Versuch unternommen werden, auch nur ansatzweise alle Formen 
und Funktionen des informellen Austauschs von Daten in der Wissenschaft zu be- 
schreiben oder zu systematisieren. Es soll an dieser Stelle genügen festzuhalten, 
dass sowohl die nicht dokumentierte und ungeregelte Nutzung individueller Spei- 
chermedien als auch die (teil-)formalisierte Verarbeitung von Forschungsdaten in 
abgegrenzten Gruppen Tatsachen des wissenschaftlichen Arbeitens darstellen, die 
von einem institutionellen Forschungsdatenmanagement (FDM) nicht oder nur am 
Rande erfasst werden.® 

Um FDR und damit den wissenschaftlichen Datenmarkt pragmatisch und pra- 
xisorientiert zu beschreiben, wird im Folgenden das international größte Register 
von qualitativ erschlossenen FDR, das Registry of Research Data Repositories (re3- 
data),’ betrachtet. re3data ist ein internationales Verzeichnis von FDR, das fach- 
übergreifend und nicht auf bestimmte akademische Disziplinen beschränkt ist. Es 
fördert darüber hinaus eine Kultur des Teilens, einen besseren Zugang und eine bes- 
sere Sichtbarkeit von Forschungsdaten und befördert die Umsetzung der FAIR-Prin- 
zipien (Findable, Accessible, Interoperable, Reusable).® Es erlaubt Forschenden, 
aber auch anderen Zielgruppen wie Förderern, Verlegerinnen und Verlegern sowie 
Journalistinnen und Journalisten Repositorien zu suchen, um Daten aufzufinden 
oder zu speichern. Bei der Konzeption und Implementierung des Dienstes wurde 
deutlich, dass neben diesen Funktionen auch das Analysieren, Aufbauen und Inte- 
grieren von Infrastruktur und Diensten im Zentrum stehen sollte. 


2.1 Institutionen 


Zu den — Stand Juli 2020 - knapp über 2500 in re3data verzeichneten FDR sind 
auch die zugehörigen Institutionen erfasst. re3data zeigt, dass meist mehrere Insti- 
tutionen für ein Repositorium verantwortlich zeichnen, wobei diese Verantwortlich- 
keit in die Aspekte Allgemein, Finanziell, Technisch, und Sponsoring unterteilt 
wird. Fast alle Repositorien haben mindestens eine Institution mit allgemeiner Ver- 
antwortlichkeit, dies bezieht sich dabei auf Inhalt und Betrieb des FDR. Für 70 Pro- 


6 Vgl. Kaden 2018. 

7 https://www.re3data.org ist das umfangreichste Nachweisinstrument. Für weitere Instrumente s. 
https://www.forschungsdaten.info/themen/finden-und-nachnutzen/forschungsdaten-finden/. 
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zent aller Repositorien sind Institutionen mit der Funktion ,,technische Verantwor- 
tung“ verbunden, fiir 62 Prozent mit der Funktion ,,finanzielle Verantwortung“ und 
nur fiir 3 Prozent im Bereich Sponsoring. Unterzieht man diese Institutionen einer 
näheren Betrachtung, handelt es sich weitgehend um 6ffentlich-rechtliche Organi- 
sationen. Damit ist eine deutliche Abgrenzung zum Informationsangebot der öffent- 
lichen Hand nicht gegeben. Es zeigt sich aber, dass die Schnittmenge zum kommer- 
ziellen Datenmarkt gering ist. Dies wird von der Tatsache unterstrichen, dass ledig- 
lich 5 Prozent der Institutionen als kommerziell klassifiziert sind. Hierzu gehören 
u.a. Kliniken, aber auch privatrechtlich organisierte Firmen. Dieser Sachverhalt 
spiegelt sich auch darin, dass die Forschungsdaten in die Richtlinie über die Weiter- 
verwendung von Informationen des öffentlichen Sektors der EU Eingang finden sol- 
len.? 


2.2 Disziplinen 


FDR in re3data sind nach der Fachsystematik der Deutschen Forschungsgemein- 
schaft (DFG)! erschlossen, wobei Mehrfachzuordnungen möglich sind. Die meisten 
FDR haben einen eindeutigen fachlichen bzw. disziplinspezifischen Fokus im Hin- 
blick auf die Hauptkategorien „Geistes- und Sozialwissenschaften“, „Naturwissen- 
schaften“, „Ingenieurwissenschaften“ und „Lebenswissenschaften“, wobei Natur- 
und Lebenswissenschaften dabei am stärksten vertreten sind. Nur ein kleiner Teil 
der FDR ist generisch angelegt bzw. fachübergreifend in dem Sinne, dass sie allen 
vier Kategorien zugeordnet sind. Der Bekanntheitsgrad einzelner FDR aus dieser 
Gruppe (Zenodo," figshare,” GitHub,” Dryad™ etc.) ist jedoch mit am höchsten." 

Die von re3data aufgezeigte Verteilung der FDR ist ein Indikator dafiir, dass der 
wissenschaftliche Datenmarkt in den Natur- und Lebenswissenschaften derzeit 
mannigfaltiger ist als in den Ingenieur- oder Geisteswissenschaften. 


9 S. https://sparceurope.org/psi_researchdata_openbydefault. 

10 S. https://www.dfg.de/download/pdf/dfg_im_profil/gremien/fachkollegien/amtsperiode_2016_ 
2019/fachsystematik_2016-2019_de_grafik.pdf. 

11 S. https://zenodo.org/. 

12 S. https://figshare.com/. 

13 S. https://github.com/. 

14 S. https://datadryad.org/. 

15 Vgl. von der Heyde 2019, 25, Fig. 18. 
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2.3 Datenarten 


re3data unterscheidet 15 Arten von Daten in den FDR. Neben der Sammelkategorie 
wissenschaftliche und statistische Daten sind dies in der Reihenfolge der Häufig- 
keit: Office Dokumente, Bilder, Text ohne Markup, Rohdaten, Grafiken bzw. Text 
mit Markup bzw. Struktur. Eine zahlenmäßig geringere Rolle spielen Softwarean- 
wendungen, audiovisuelle Dateien, Datenbanken und Source Code. Die Erfassung 
der unterstützten Datenarten stellt in der Praxis regelmäßig eine Herausforderung 
dar. Im Vergleich zum wissenschaftlichen Publikationsmarkt sind Datenarten und 
Formate weitaus heterogener und erfordern komplexe Lösungen für Speicherung, 
Archivierung,'° Austausch und Nachnutzung der Forschungsdaten. Ein einheitli- 
cher Standard über alle Repositorien hinweg lässt sich derzeit nicht nachweisen. 
Diese Standardisierung ist eine prioritäre Aufgabe verschiedener Wissenschaftsge- 
meinschaften und spielt auch bei der Konsortialbildung im Rahmen der Nationalen 
Forschungsdateninfrastruktur (NFDI) eine bedeutende Rolle.” 


2.4 Zugriff und Lizenzen 


Der offene Zugriff auf oder das offene Speichern von Daten sind keine intrinsischen 
Merkmale von FDR und somit nicht prädestiniert zur Beschreibung des wissenschaft- 
lichen Datenmarktes, auch wenn man davon ausgehen könnte, dass Offenheit ein 
Kennzeichen der Wissenschaft sei. Tatsächlich ist der reine Systemzugang bei rund 
94 Prozent der FDR frei in dem Sinne, dass eine Webpräsenz zur Recherche in Metain- 
formationen direkt zugänglich ist. Während noch bei rund 86 Prozent der FDR der 
Zugriff auch auf Daten bzw. Datensätze frei und ohne Restriktionen möglich ist, zeigt 
dies gleichfalls schon Einschränkungen auf. Unter welchen Rahmenbedingungen 
bzw. mit welcher Lizenz der Zugriff und die Nachnutzung möglich sind, gestaltet sich 
sehr heterogen. 40 Prozent der FDR nutzen eine Form der Creative-Commons-Lizen- 
zen, das ist ein deutlicher Zuwachs gegenüber den knapp 22 Prozent aus der Erhe- 
bung von 2017." Die häufigste Form sind jedoch nach wie vor lokal formulierte Nut- 
zungsbedingungen oder Copyright-Vermerke. Vollständig in die andere Richtung 
schlägt das Pendel bei der Speicherung von Daten aus. Hier erlauben nur knapp 
4 Prozent der FDR ein freies Einbringen von Daten, gegenüber mehr als 96 Prozent, 
die dies grundsätzlich einschränken bzw. mindestens eine Registrierung erfordern 


16 Vgl. UK Data Archive 2011. 

17 Vgl. Rat für Informationsinfrastrukturen 2018 sowie Beitrag von Neuroth und Oevel, Kap. „Aktu- 
elle Entwicklung und Herausforderungen im Forschungsdatenmanagement in Deutschland“ in die- 
sem Praxishandbuch. 

18 Vgl. Kindling 2017. 
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oder das Einbringen nur fiir bestimmte Personen oder Organisationen erlauben. Kei- 
nesfalls kann man den wissenschaftlichen Datenmarkt als synonym mit Open Data, 
das einerseits nur die durch jedermann frei nutzbaren Daten aber andererseits weite- 
re Bereiche wie Daten des öffentlichen Sektors umfasst, sehen.” 


2.5 Persistente Identifikatoren 


Ein Persistenter Identifikator (PID) ist ein dauerhafter, digitaler Identifikator, be- 
stehend aus Ziffern oder alphanumerischen Zeichenfolgen, welcher einem Daten- 
satz (oder einem anderen digitalen Objekt) zugeordnet wird. Im Unterschied zum 
Uniform Resource Locator (URL) identifiziert er direkt eine Ressource und verweist 
nicht nur auf einen „Ort“, an dem diese zu finden ist. 

54 Prozent der FDR nutzen keine der im Publikations- oder Webbereich etablier- 
ten Persistenten Identifikationssysteme wie beispielsweise DOI, Handle oder URN. 
Dies deutet wie andere Faktoren darauf hin, dass der wissenschaftliche Datenmarkt, 
so wie er sich in FDR abbildet, noch relativ jung und in starker Entwicklung begrif- 
fen ist. Von den verwendeten PID-Systemen sind DOI” (29 Prozent) und Handle 
(8 Prozent) die beiden mit der größten Verbreitung. Dies zeigt, dass vor allem der 
Digital Object Identifier als Quasi-Standard aus dem Publikationsbereich auch für 
den wissenschaftlichen Datenmarkt von Bedeutung ist. 


2.6 Schnittstellen 


Noch weniger als bei PID-Systemen kann im Bereich der Software bzw. technischen 
Architektur von Standardisierung oder Schwerpunktbildung gesprochen werden. Es 
ist davon auszugehen, dass rund 68 Prozent der FDR mit selbstentwickelter Soft- 
ware betrieben wird, die zwar auf Standardkomponenten oder Frameworks aufbaut, 
trotzdem jedoch keine Vorhersage zu Interoperabilität bzw. Schnittstellen für die 
Machine-to-Machine-Kommunikation erlaubt. Immerhin verfügen rund 17 Prozent 
der FDR über eine REST- und 8 Prozent über eine OAI-PMH-Schnittstelle. Erfahrun- 
gen aus dem Publikationsbereich belegen jedoch, dass Schnittstellen wie OAI-PMH 
sehr unterschiedlich implementiert werden, was einer Standardisierung in der Pra- 
xis zuwiderläuft.?' 

Hier zeigt sich ein wesentliches Desiderat eines reiferen wissenschaftlichen Da- 
tenmarktes — das Vorhandensein verlässlicher und standardisierter Schnittstellen, 


19 Vgl. Hagendorff 2016, 228. 
20 S. https://www.doi.org. 
21 Vgl. Bäcker 2017, 6. 
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die einen übergreifenden Austausch, ein Auffinden und die Neukonfiguration von 
Datensätzen ermöglichen. 


2.7 Standards und Zertifizierung 


Qualitätskriterien können die Bewertung von FDR deutlich erleichtern. Zertifikate 
geben Datenerzeugern die Sicherheit, dass die Daten langfristig vorgehalten, nutz- 
bar und zitierbar sind. Datennutzerinnen und -nutzer können auf ein Mindestmaß 
an Qualität (Datenformat, Zitierbarkeit, etc.) der in zertifizierten FDR vorgehaltenen 
Daten vertrauen. Es gibt mehrere Initiativen, die - basierend auf unterschiedlichen 
Kriterien - Gütesiegel bzw. Zertifikate für FDR vergeben.” Lediglich ein geringer An- 
teil der FDR haben sich einem Zertifizierungsprozess unterzogen, wobei hier das 
CoreTrustSeal? mit knapp 3,5 Prozent die größte Untergruppe darstellt. Die geringe 
Zertifizierungsrate spiegelt die noch kaum vorhandene Standardisierung durch das 
derzeit noch schnelle und dynamische Wachstum des wissenschaftlichen Daten- 
marktes wider und zeigt die Herausforderungen auf, Nachhaltigkeit und Transpa- 
renz im FDM sicherzustellen. 


3 Nationale Forschungsdateninfrastruktur 


Nicht nur die lokalen und fachspezifischen Initiativen zum FDM adressieren den hier 
festgestellten Mangel an Verbindlichkeit, Standardisierung und Nachhaltigkeit des 
wissenschaftlichen Datenmarktes, sondern auch die Wissenschaftspolitik und Selbst- 
verwaltung der Wissenschaft mit der Initiative zu einer Nationalen Forschungsdaten- 
infrastruktur (NFDI).”* Die NFDI soll eine verteilte und vernetzte Infrastruktur wer- 
den, die Dienste-Portfolios und Beratungsleistungen für die Erzeugung und Nutzung 
von Forschungsdaten anbietet. Sie wird in Gestalt von Konsortien entlang fachlicher 
Domänen oder methodischer Kriterien organisiert. Die DFG beschreibt sie als eine In- 
frastruktur, die Datenbestände von Wissenschaft und Forschung systematisch er- 
schließen, nachhaltig sichern und zugänglich machen sowie (inter-)national vernet- 
zen (soll). Sie wird in einem aus der Wissenschaft getriebenen Prozess als vernetzte 
Struktur eigeninitiativ agierender Konsortien aufgebaut werden.” 


22 S. https://www.forschungsdaten.info/themen/veroeffentlichen-und-archivieren/daten-publizie- 
ren/. 

23 S. https://www.coretrustseal.org. 

24 S. a. Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Herausforderungen im 
Forschungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 

25 S. https://www.dfg.de/foerderung/programme/nfdi. 
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Durch die breite Aufstellung und Vernetzung sowie durch die hohe und lang- 
fristige Förderung von bis zu 90 Millionen Euro jährlich,” hat die NFDI das Poten- 
tial, den wissenschaftlichen Datenmarkt entscheidend mitzuprägen und sowohl 
fachspezifisch als auch interdisziplinär Standards zu setzen. 

Die Initiative zum Aufbau der NFDI wurde von der Gemeinsamen Wissen- 
schaftskonferenz (GWK) initiiert und wird von Bund und Ländern finanziert. Die 
DFG verantwortet die Begutachtung und Bewertung der Konsortialanträge. Diese 
Anträge wurden im Oktober 2019 eingereicht. Im Juni 2020 hat die GWK die Förde- 
rung von neun NFDI-Konsortien beschlossen, darunter vier Konsortien aus dem Be- 
reich der Lebenswissenschaften, je zwei Konsortien aus dem Bereich der Natur- 
bzw. der Geistes- und Sozialwissenschaften und ein ingenieurwissenschaftliches 
Konsortium. Zwei weitere Auswahlrunden folgen in den Jahren 2020 und 2021.7’ 


Fazit 


Die Vielgestaltigkeit der Wissenschaft spiegelt sich auch in der Dynamik und Diver- 
sität des wissenschaftlichen Datenmarktes wider. Die Transformationsprozesse und 
Anstrengungen, um Verifikation, Interoperabilität und Nachhaltigkeit von For- 
schungsergebnissen zu verbessern, zeigen sich in einer noch immer stetig wachsen- 
den und sich verändernden Repositorienlandschaft getrieben von dem Engagement 
der wissenschaftlichen Communities. Vor diesem Hintergrund überlappen sich zahl- 
reiche Aktivitäten im Bereich des wissenschaftlichen FDM, wobei die sichtbaren Ak- 
teure vorwiegend aus dem 6ffentlich-rechtlichen Bereich stammen. Eine privatwirt- 
schaftliche Dominanz des wissenschaftlichen Datenmarktes ist, im Unterschied 
zum wissenschaftlichen Publikationsmarkt, noch nicht festzustellen. Es bleibt zu 
hoffen, dass die notwendigen Konsolidierungs- und Standardisierungsprozesse im 
Rahmen der digitalen Transformation in der Endverantwortung der öffentlich-recht- 
lichen Wissenschaft ablaufen, um eine nachhaltige und passgenaue Entwicklung 
des wissenschaftlichen Datenmarktes zu befördern. Dies schließt die Beteiligung 
privatwirtschaftlicher Akteure ein, nicht jedoch deren Dominanz. NFDI und ähnli- 
che Bestrebungen der Entwicklung von Forschungsdateninfrastrukturen, wie z.B. 
die European Open Science Cloud (EOSC),® können einen wesentlichen Beitrag 
dazu leisten, eine nachhaltige Balance der Akteure im Sinne der Wissenschaft zu 
erreichen. 


26 S. https://www.gwk-bonn.de/themen/weitere-arbeitsgebiete/informationsinfrastrukturen. 
27 S. https://www.forschungsdaten.info/support/glossar/#c429175. 
28 S.a. Beitrag von Streit und van Wezel, Kap. 1.2 in diesem Praxishandbuch. 
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Ina Schieferdecker 

2.3 Urbane Datenräume und digitale Gemein- 
güter — Instrumente für Open Government 
und mehr 


Abstract: In den letzten Jahren gab es verschiedenste Ansätze zur Weiterentwick- 
lung von Städten und Gemeinden mittels digitaler Angebote und digitalisierter In- 
frastrukturen. Egal, ob es dabei um neue Beteiligungs-, ÖPNV- oder Bildungsange- 
bote geht, spielen öffentlich zur Verfügung gestellte Daten eine zentrale Rolle. So 
betraf eine der ersten Aktivitäten weltweit die Öffnung großer Datenmengen nach 
Open-Data-Prinzipien von verschiedenen öffentlichen Verwaltungen und Versor- 
gungsunternehmen innerhalb einer Stadt, um ein funktionierendes Ökosystem für 
städtische Dienste und Anwendungen rund um diese Daten zu schaffen. Dabei wur- 
de schnell deutlich, dass offene Daten der öffentlichen Hand zwar ein wichtiges, 
aber nicht das einzige Datenangebot in einem solchen Ökosystem sein sollten, son- 
dern ein breites Spektrum an Daten verschiedenster Anbieter und somit unter ver- 
schiedenen Nutzungskonditionen benötigt werden, um attraktive datengetriebene 
Angebote zu ermöglichen. Dabei werden Teile dieser Datenangebote als Gemeingü- 
ter benötigt, so dass jede und jeder an der Nutzung und Weiterverarbeitung partizi- 
pieren kann. Zudem wurde klar, dass die bereitgestellten Daten und Metadaten auf 
ihre Qualität zu überprüfen und ein entsprechendes Qualitätsniveau zu gewährleis- 
ten ist. Zudem entstand das Konzept einer offenen urbanen Plattform als Gesamtan- 
satz für eine 6ffentlich-rechtliche Informations- und Kommunikationsinfrastruktur — 
als Architektur für eine digitale Infrastruktur für Informationsangebote und -dienste 
im öffentlichen Raum und in öffentlicher Verantwortung. Dieser Artikel bietet einen 
Überblick zu Daten und Metadaten im Sinne von Gemeingütern, zu ihrer Veranke- 
rung in einer 6ffentlich-rechtlichen Informations- und Kommunikationsinfrastruk- 
tur und zu verfügbaren Software-Komponenten und Informationen, also zu Ansatz- 
punkten für Interessierte. 


Einleitung 


Im digitalen Zeitalter werden die Städte und Gemeinden mit den überzeugendsten 
digitalen Angeboten die Nase vorn haben, Und das ist vergleichbar mit Zeiten der 
industriellen Revolution, in denen diejenigen Kommunen mit der besten Energie- 
versorgung Innovationen angezogen und eine florierende Entwicklung ausgelöst 
haben. Das ist jedenfalls einer der Schlüsse des aktuellen Gutachtens „Unsere ge- 


3 Open Access. © 2021 Ina Schieferdecker, publiziert von De Gruyter. [EVEN Dieses Werk ist lizenziert unter 
der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-010 
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meinsame digitale Zukunft“! des Wissenschaftlichen Beirats der Bundesregierung 
Globale Umweltveränderungen (WBGU). Zudem setzt eine nachhaltige kommunale 
Entwicklung unter dem Einsatz digitaler Technologien voraus, dass Kommunen 
und Stadtgesellschaften ihre Gestaltungshoheit gegenüber der Digitalwirtschaft be- 
wahren und eine eigene Technologie- und Datensouveränität aufbauen. Schon heu- 
te investiert eine wachsende Zahl von Städten und Gemeinden aktiv in dezentrale 
digitale Plattformen, offene Architekturen, öffentliche Daten und datengetriebene 
Innovationen und setzen auf Gemeinwohlorientierung der digitalen Angebote. Setzt 
sich dieser Trend durch, besteht berechtigte Hoffnung, dass die digitale Revolution 
für eine inklusive, nachhaltige kommunale Entwicklung genutzt werden kann. 

Zudem können urbane Datenräume wichtige Beiträge zu Open Government leis- 
ten. Open Government bezeichnet die Öffnung von Staat und Verwaltung nach au- 
ßen gegenüber der Gesellschaft und nach innen gegenüber eigenen und anderen 
Institutionen auf den verschiedenen Politik- und Verwaltungsebenen. Es setzt auf 
offene, transparente, partizipative und kooperative Prozesse sowie einen kontinu- 
ierlichen Dialog, um gesellschaftliche Bedürfnisse und Anforderungen schneller zu 
erkennen und beim staatlichen Handeln zu berücksichtigen. Eine solide Datenbasis, 
wie sie in urbanen Datenräumen bereitgestellt und weiterverarbeitet werden kann, 
ist dabei sowohl Ausgang für als auch Ergebnis offenen Politik- und Verwaltungs- 
handelns. 

So bieten digitale Plattformen in kommunaler Verantwortung für Gemeinden 
und Städte die Möglichkeit für mehr Innovation, Transparenz, Beteiligung sowie zu- 
sätzlicher Einnahmen für die Haushaltskasse. Jedoch sind solche kommunalen Digi- 
talplattformen ein noch schwer zu fassendes Konzept. Hierbei werden sogenannte 
urbane Datenräume als zentraler Bestandteil der öffentlichen digitalen Infrastruktur 
einer Kommune verstanden, die es gilt, effizient umzusetzen und mit interessanten 
Datenangeboten bestückt anzubieten. Dieser Beitrag gibt einen Überblick zu funda- 
mentalen Überlegungen zu urbanen Daten, wie sie über urbane Datenräume bereit- 
gestellt werden können und wie sie als Produkt bepreist bzw. als Gemeingut ge- 
handhabt werden können. Zudem gibt es weiterführende Informationen zu 
Komponenten und Referenzinstallationen für Interessierte. 


1 Begrifflichkeiten rund um Daten 


Wenn gemeinhin von Daten gesprochen wird, sind oftmals Daten in digitalisierter 
Form gemeint, die informationstechnisch gesehen Informationen repräsentieren. Di- 
gitalisierte Daten sind oftmals maschinenlesbar, insbesondere, wenn sie wohldefi- 


1 Vgl. WBGU 2019, 197-203, 279-286. 
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nierte und standardisierte Formate verwenden, und können so weiterverarbeitet 
und weiterverwendet werden. Dazu werden die Daten automatisiert oder manuell 
erhoben, erfasst und digitalisiert; sie werden gespeichert, übertragen und für die 
Nutzung in Applikationen interpretiert sowie visualisiert (siehe Abb. 1). Daten - 
egal ob strukturiert oder unstrukturiert - werden in Bitfolgen dargestellt, denen 
Syntaxen zur korrekten Abfolge von Bits, Semantiken zur Bedeutung der Bits und 
ihrer Abfolgen oder Ontologien zu Relationen von Bits und Bitfolgen untereinander 
unterlegt werden.? 


\Erfassung Aufbereitung Veröffent- Aufwertung Bereitstellung Weiter- Integration 
| lichung verwendung 
‘der relevanten insbesondere als Basisdaten insbesondere über Portale mit durch in Applikationen, 
|Rohdaten über durch Reinigen, mit Metadaten durch Mehrwert- Unternehmen, Dienstleistungen 
|digitalisierte Filtern und Aggregieren diensten zur Wissenschaft, und Produkte 
|Prozesse, durch ggfs. sowie Suche und Verwaltung 
| Systeme und Anonymisieren Verschneiden Verarbeitung sowie 
{Sensoren oder Pseudony- als Mehrwert- der Daten und Bürgerinnen 
misieren daten mit Einbindung in und 
Metadaten Datenräume Bürger 


Abb. 1: Aufbereitung und Nutzung von Daten 


Die öffentliche Diskussion debattiert vor allem und zu Recht Fragen der Datensi- 
cherheit und des Datenschutzes personenbezogener Daten, übersieht dabei jedoch, 
dass es eine viel größere Menge an Daten gibt, die nicht personenbezogen sind, 
auch wenn sie in jeweiligen Situationen personenbeziehbar werden. Anhand digita- 
ler Filme lässt sich dies beispielhaft erläutern: Für Filme mit hoher Auflösung wer- 
den u.a. DVDs mit einer Kapazität von bis zu 8.5 GB (Gigabyte) oder Blu-Rays mit 25 
GB und mehr genutzt. Dahingegen benötigen die sog. Metadaten, z. B. mit Informa- 
tionen zur Produktion des Filmes, zu den Akteuren und Akteurinnen im Film, zum 
Filmvertrieb oder eben, wer diesen Film wann gesehen hat, nur wenige KB (Kilo- 
byte) bzw. bei komplizierteren Formaten einige Megabyte (MB), jedoch nicht GB. 
Die eigentlichen Inhaltsdaten des Films (der eigentliche Film) übersteigen die Meta- 
daten rund um den Film (u.a. der Vor- und Abspann eines Films) in ihrer Größe um 
ein Vielfaches. Dabei gilt ein als Produkt verfügbarer Film mit seinen Inhaltsdaten 
als nicht personenbezogen. Gleichsam sind jedoch seine Vertriebs- und Nutzungs- 
kontexte personenbeziehbar und seine Metadaten somit personenbezogen. Demge- 
genüber sind bei Filmen im privaten Kontext sowohl die Inhalts- als auch die Meta- 
daten personenbezogen. 

Noch deutlicher ist die Relevanz (als auch die Größe) nicht personenbezogener 
Daten in der Wirtschaft, wo es bspw. um Produkt-, Produktions- oder Logistikdaten 
geht, im öffentliche Raum, wo es bspw. um Daten zu öffentlichen Angeboten oder 


2 Vgl. Krcmar 2015, 85-111. 
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zu Verfiigbarkeiten und Auslastungen geht, oder in der Umwelt und Natur, wo es 
sowohl um die Erfassung unseres Planeten in allen Dimensionen, Makro-, Mezzo-, 
Mikro- oder Nanoebenen oder um Fauna und Flora als auch in der geschichtlichen 
Entwicklung oder in perspektivischen Vorhersagen geht. 

Derlei Daten können durch Metadaten in ihren Inhalten, Strukturen, Urheber- 
rechten, Nutzungsbestimmungen, Verantwortlichkeiten oder Speicherorten als 
auch Versionen beschrieben werden.’ Uber diese Metadaten werden Inhaltsdaten 
kategorisierbar und auffindbar. Und gleichsam können Metadaten wiederum als In- 
haltsdaten verstanden werden, da es bspw. durchaus interessant sein kann, welche 
Daten in welchen Mengen, Umfängen oder Qualitäten angeboten und wie genutzt 
werden. 

Um einerseits Daten und Metadaten anbieten, verarbeiten und weiterverwenden 
zu können, können sogenannte Datenräume gebildet werden, so dass für Bereitstel- 
lende, Bearbeitende und/oder Anwendende gemeinsame Technologien, Werkzeuge 
und Prozesse zur Datenverarbeitung zur Verfügung stehen. Solche Datenräume kön- 
nen innerhalb einer Organisation, organisationsübergreifend oder der allgemeinen 
Öffentlichkeit zur Verfügung gestellt werden.” In Datenräumen kann die Wertschöp- 
fung aus Daten oder Aggregationen von Daten dargestellt, mit einfachen bis hin zu 
komplexeren Methoden geschehen (s. Abb. 2). Damit die Wertschöpfung aus Daten 
systematisch erfolgen kann, werden derzeit weltweit Produktionsprozesse für hoch- 
wertige Daten entworfen, erprobt und teilweise bereits großflächig — bspw. für das 
Labeling von Gewebescans zur Tumorerkennung? - umgesetzt. 


als Repräsentation von Ereignissen oder Prozessen. einer unterstützenden Funktion. 
zur Steuerung von Prozessen und Dienstleistungen. eines (Geschäfts-)Prozessmanagements. 
zur Ermöglichung von Produkten und Dienstleistungen. einer Befähigung von Produkten und Dienstleistungen 


als Produkt oder Dienstleistung. einer nachgefragten Ressource. 


Abb. 2: Wertschöpfung aus Daten 


Für kommerzielle Datenräume, in denen Daten und darauf aufbauende Dienste ver- 
kauft werden, hat sich der Begriff des Datenmarktplatzes etabliert. Beispiele sind 
Mobilitätsdatenmarktplätze, Energiedatenmarktplätze oder Marktplätze für Geoin- 


3 Vgl. Klessmann et al. 2012, 527-533. 
4 Vgl. Schieferdecker et al. 2018, 36-41. 
5 Vgl. Lerner, Veil, Nguyen, Luu und Jantzen 2018, 3. 
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formationen.° Für allgemein zugängliche Datenräume wird oftmals der Begriff der 
Datenportale verwendet. Aus gesellschaftlicher Sicht sind regionale Datenräume 
von besonderem Interesse, da sie Übergänge zwischen den verschiedenen Datenan- 
geboten der öffentlichen Hand, von Unternehmen, der Wissenschaft und Politik bie- 
ten können’ und vielfach regional abspielende gesellschaftliche und wirtschaftliche 
Interaktionen widerspiegeln. 


2 Rolle von urbanen Daten im digitalen Zeitalter 


So werden in einer Stadt oder Gemeinde unterschiedlichste digitale Daten erzeugt, 
vom Verkehr über den Wasserkonsum bis hin zum Wahlverhalten. Sie werden in 
Unternehmen, Behörden, Wissenschaftsorganisationen und auf privaten Endgerä- 
ten in unterschiedlichen Formaten gespeichert. Digital innovativ wird eine Kommu- 
ne dann, wenn diese Daten digitalisiert, zuverlässig und sicher, leicht auffindbar 
sowie verständlich gemacht und für die Weiterarbeitung bzw. Weiterverwendung 
aufbereitet werden. Sie können dann für datengetriebene Dienste und Produkte ge- 
nutzt werden, die das Leben in der Kommune verbessern oder ebenso kommunale 
und regionale Unternehmen stärken. Wohlbekannt sind in diesem Kontext Mobili- 
tätsdienste, die mit Hilfe einer umfassenden Datenbasis aktuelle Baustellen, Veran- 
staltungen, Wetter- und Verkehrslagen berücksichtigen können. Werden die lokalen 
Datenangebote in einem urbanen Datenraum gebündelt, der interoperabel zu weite- 
ren Datenräumen gestaltet wird, können die Vorteile datengetriebener Innovationen 
ebenso für Bürger-, Bildungs- und Vorsorgedienste sowie andere Angebote der Ver- 
waltung, von Politik, Wirtschaft, Wissenschaft oder Zivilgesellschaft ermöglichen. 

Der Begriff urbane Daten bezieht sich auf alle Arten von Daten, die im urbanen 
Kontext wichtig sind, unabhängig von der spezifischen Datenherkunft, dem Daten- 
management, den damit verbundenen geistigen Eigentumsrechten und den Lizenz- 
anforderungen. Städtische Daten können Daten beinhalten, die über den direkten 
lokalen Kontext hinausgehen, z.B. wenn sie für einen kommunalen Prozess benö- 
tigt werden, der auf Daten von überregionaler oder globaler Relevanz basiert, oder 
einfach wenn sie allgemeine Auswirkungen auf den städtischen Raum/Umwelt ha- 
ben - zum Beispiel Klima- oder Finanzdaten.® 

Urbane Daten können auch, müssen aber nicht offene Daten sein. Die Offenheit 
von Daten macht sich an der Erfüllung verschiedener Kriterien fest. Die üblicherwei- 
se verwendeten Kriterien sind:? 


6 S. Beitrag von Vossen und Löser, Kap. 2.1 in diesem Praxishandbuch. 
7 Vgl. Schieferdecker et al. 2018, 41-44. 

8 Vgl. Schieferdecker et al. 2018, 54-123. 

9 Vgl. Klessmann, Denker, Schieferdecker und Schulz 2012, 36-37. 
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- Vollständigkeit: Datensätze sollten so vollständig und ursprünglich wie möglich 
veröffentlicht werden, soweit dies die Regelungen zum Datenschutz zulassen. 

-  Primdrquellen: Daten, die als offene Daten bereitgestellt werden, sollten direkt 
aus den ursprünglichen Quellen veröffentlicht und mit Informationen zum Ab- 
lauf der Sammlung und zur Erstellung der Daten angereichert werden. 

- Zeitliche Nähe: Die Veröffentlichung der Daten soll möglichst zeitnah zur Ent- 
stehung oder Aktualisierung des Datensatzes erfolgen. 

— Leichter Zugang: Der Aufwand, um Zugang zu einem oder mehreren Datensät- 
zen zu erhalten, soll möglichst gering sein. Dazu sind Hindernisse im techni- 
schen Zugang oder rechtliche Vorgaben zu minimieren. 

—  Maschineninterpretierbarkeit: Daten sollten leicht maschinell verarbeitbar sein, 
um die Potenziale offener Daten wie eine einfache Einbindung in Softwarean- 
wendungen auszuschöpfen. Dazu sollten solche Datenformate verwendet wer- 
den, deren zugrundeliegenden Datenstrukturen und entsprechende Standards 
öffentlich zugänglich, vollständig publiziert und kostenfrei erhältlich sind. 

—  Diskriminierungsfreiheit: Der Zugriff auf Daten muss ohne Ansehen der Person, 
zeitliche Restriktionen, die Anforderung, die eigene Identität nachzuweisen, 
oder eine Begründung für den Zugriff möglich sein. 

— Verwendung offener Standards: Mit dem Einsatz offener Standards ist die Ver- 
wendung von Formaten gemeint, die Interoperabilität gewährleisten, so dass 
verschiedene Programme und Anwendungen auf die Daten zugreifen können, 
ohne dass dafür Lizenzkosten an einzelne Hersteller abgeführt werden müssen. 

- Lizenzierung: Offene Daten sollten eindeutig sichtbar mit einer Nutzungsbestim- 
mung versehen und durch Dritte nutzbar sein. Für offene Daten bieten sich offe- 
ne Nutzungsbestimmungen wie die der Creative Commons! oder dazu kompati- 
ble Nutzungsbestimmungen wie die Deutsche Datennutzungslizenz' an. 

- Dauerhaftigkeit: Offene Daten sollten permanent verfügbar sein, Änderungen, 
Aktualisierungen und Löschungen mit Versionskontrollen und Archivierung 
sollten nachvollziehbar gestaltet werden. 

—  Nutzungskosten: Offene Daten sollten möglichst kostenfrei zur Verfügung ge- 
stellt werden. Die Erhebung von Gebühren sollte auf die anfallenden Grenzkos- 
ten beschränkt werden.” 


Diese Kriterien sind in der Praxis nicht immer leicht bestimmbar und spannen ein 
Spektrum von Geschlossenheit bis umfassender Offenheit von Daten, wie bei urba- 
nen Daten, auf. Hierbei sind die vier Kriterien der Verfügbarkeit, der Maschinenin- 
terpretierbarkeit, der Lizenzierung und der Nutzungskosten von besonderer Bedeu- 


10 Vgl. Kim 2007, 195 ff. und CC 2002. 
11 Vgl. Helene 2014, 114-115 und GovData 2016. 
12 Vgl. Schieferdecker et al. 2018, 265 ff. 
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tung: Auf Daten aufbauende Angebote oder Geschaftsmodelle erfordern eine zuver- 

lässige Verfügbarkeit, wohldefinierte Nutzungsbestimmungen und sowohl kalku- 

lierbare als auch faire Nutzungskosten der Daten, die mit vergleichsweise geringem 

Aufwand automatisiert zu verarbeiten sein sollten. 

Mit Hilfe von urbanen Daten, die aus 6ffentlichen, industriellen, wissenschaftli- 
chen, privaten oder gemeinnützigen Quellen stammen können, können fundierte 
Entscheidungen für Geschäfts- und Verwaltungsentscheidungen getroffen werden. 
Das PAS Smart City-Konzeptmodel” definiert vier Typen an Erkenntnissen, die aus 
urbanen Daten gewonnen werden können: 

- Betriebliche Erkenntnisse, um Eigenschaften und Charakteristiken von urbanen 
Sachverhalten und Prozessen zu verstehen, um daraus Verbesserungsoptionen 
ableiten zu können - z.B. Verkehrsinformationen in Echtzeit, um ein verbesser- 
tes multi-modales Routing zu erreichen. 

- Kritische Erkenntnisse, um aktuelle Vorfälle zu beobachten und daraus Hand- 
lungsempfehlungen ableiten zu können - z.B. Transparenz und Hinterfragen 
von politischen Entscheidungen, Melden von Straßenschäden und verwandte 
Formen der Bürgerpartizipation.'* 

— Analytische Erkenntnisse, um Muster und Korrelationen zu identifizieren und 
dadurch Vorbedingungen für urbane Innovation, Auswirkungseinschätzungen 
oder Herausforderungen und Möglichkeiten bei der urbanen Entwicklung ablei- 
ten zu können - z.B. in Kombination von touristischen und gastronomierele- 
vanten Daten oder von statistischen Mobilitätsdaten und Infrastrukturinforma- 
tionen inklusive Zustandsinformationen wie Straßenschäden. 

- Strategische Erkenntnisse, um einen allumfassenden Ansatz bei den strategi- 
schen Zielen, Plänen und Entscheidungen innerhalb der urbanen Umwelt zu er- 
möglichen - z.B. Einflussnahme auf längerfristige politische Entscheidungen 
wie die Mietpreisbremse auf Basis der Kombination verschiedener Statistiken. 


3 Rolle von Metadaten in urbanen Datenräumen 


Auch wenn wie eingangs erläutert technisch zwischen den Inhaltsdaten und Meta- 
daten zu unterscheiden ist, sollten Daten und so auch urbane Daten immer als Paar 
bzw. als Kombination aus Inhalts- und Metadaten verstanden und bereitgestellt 
werden. Und unabhängig von den eigentlichen Inhaltsdaten sollten die Metadaten 
diese drei wesentlichen Funktionen erfüllen: 


13 Vgl. The British Standards Institution, BSI 2016, 2-4. 
14 Vgl. BSW 2013. 
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— die Auffindbarkeit der Daten sicherzustellen, 
— die Verständlichkeit der Daten zu verbessern und 
- die Bearbeitung und Weiterverwendung der Daten zu ermöglichen. 


Für die Auffindbarkeit von Daten sollten Metadaten so vollständig wie möglich 
sein. Es empfiehlt sich, wohldefinierte Vokabulare insbesondere für Bezeichnungen 
und Schlüsselwörter zu verwenden und geographische oder andere wichtige inhalt- 
liche Bezüge der Daten herzustellen. Zudem sollten neben Fachbegriffen auch er- 
ganzend Synonyme verwendet werden. 

Zur Verbesserung der Verständlichkeit von Daten sollten diese detailliert be- 
schrieben werden, um eine klare Vorstellung der Inhaltsdaten zu ermöglichen. 
Dazu sollte eine leicht verständliche Sprache ohne Abkürzungen verwendet werden. 
Zudem sind Informationen rund um den Zweck der Erhebung der Daten und die Er- 
hebungsmethoden hilfreich. 

Zur besseren Bearbeitung und Weiterverwendung der Daten sollten die Metada- 
ten Informationen zu den genutzten Formaten und Standards als auch zu anderen 
relevanten Merkmalen wie zu ihrer Genauigkeit oder Aktualität enthalten. Zudem 
sollte auf mögliche Beschränkungen der Inhaltsdaten hingewiesen werden. Es ist 
auch hilfreich, Angaben zur Herkunft der Daten und mögliche Ansprechpersonen 
zu machen. 

Die Beachtung dieser Empfehlungen zu Metadaten kann durch eine Qualitätssi- 
cherung unterstützt werden, indem beim sogenannten Harvesten von Daten, bei 
dem Daten automatisiert in einen urbanen Datenraum aufgenommen werden, oder 
bei der manuellen bzw. teilautomatisierten Bereitstellung von Daten die Vollstän- 
digkeit, Konsistenz und Korrektheit der Inhalts- und Metadaten überprüft und ggfs. 
korrigiert werden. Das Zwischenergebnis einer solchen internen Qualitätssiche- 
rung ist in Abb. 3 beispielhaft dargestellt. Sie zeigt die Anzahl an Datensätzen mit 
Regelverletzungen auf einem Datenportal. Einen Werkzeugkasten für das Manage- 
ment, die Bereitstellung und Weiterverwendung von Daten und Metadaten bietet 
beispielsweise piveau.'® 


15 Vgl. Catal, Tcholtchev, Lämmel und Schieferdecker 2018, 145-147. 
16 Vgl. FOKUS 2019. 
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Schemaprifer 
‚Grundlage für die Schemaprifung ist immer die aktuellste Version des OGPD JSON Schema. 


Schemaverletzungen nach Datenbereitsteller 


Die Anzahl der Datensätze mit Regelverletzungen des Schemas pro Datenbereitsteller. 


Datenbereitsteller Datensätze mit Regelverietzungen 
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Abb. 3: Zwischenergebnis einer Qualitätskontrolle der Metadaten auf govdata.de 


4 Urbane Datenräume 


Der Begriff des Datenraums wurde mit dem Konzept einer europäischen Datenwirt- 
schaft geprägt. Im April 2018 legte die Europäische Kommission das Follow-up-Stra- 
tegiepapier zur Europäischen Datenwirtschaft! vor und definiert darin den europäi- 
schen Datenraum als „ein nahtloses digitales Gebiet in einer Größenordnung, die 
die Entwicklung neuer datenbasierter Produkte und Dienstleistungen ermöglicht“ .18 

In Datenräumen werden verschiedene Daten wie Inhaltsdaten als Basisdaten 
(auch „raw data“ genannt) sowie aufbereitete Daten, Metadaten und Informationen, 
die aus den Daten durch Kombination und Aggregation verschiedener Daten abge- 
leitet werden, bereitgestellt. Mit Datenraum können ebenso die für die Daten und 
ihre Verarbeitung nötigen technischen Infrastrukturen wie Datenspeicher oder 
Werkzeuge zur Datenverarbeitung bezeichnet werden. Ein Datenraum kann einen 
räumlichen Bezug haben, so wie sich der europäische Datenraum auf das Gebiet 
der Europäischen Union bezieht. In institutioneller und personeller Hinsicht kann 
ein Datenraum ebenso als ein Netzwerk von Akteurinnen und Akteuren verstanden 
werden. Rechtlich gesehen kann ein Datenraum als Entität mit eigenen Regeln und 
Rechtsrahmen aufgebaut werden, die bspw. Aspekte der Datensicherheit und Da- 
tenhoheit definieren. Funktional kann zudem ein Datenraum als ein bedarfsorien- 


17 Vgl. Europäische Kommission 2017; Europäische Kommission 2018. 
18 Vgl. Europäische Kommission 2018, 1. 
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tiertes System verstanden werden, das von seinen Akteurinnen und Akteuren aktiv 

gestaltet werden kann.” 

In der Datenwirtschaft wird es verschiedene dezentrale Datenräume geben. Da- 
bei unterscheiden sich Datenräume bezüglich ihrer räumlichen, organisatorischen 
und rechtlichen Eigenschaften als auch ihrer wirtschaftlichen Ziele. So können Da- 
tenräume auf europäischer, nationaler, regionaler oder lokaler Ebene unterschieden 
werden als auch nach ihren unterschiedlichen Akteurinnen und Akteuren (z.B. In- 
dustrie, Kommunen oder Wissenschaft) oder branchenspezifisch (z.B. Mobilitäts-, 
Energie- oder Medizindatenraum). 

Als urbaner Datenraum wird ein solcher Datenraum bezeichnet, der alle Arten 
von Daten enthält, die für eine urbane Gemeinschaft und den urbanen Wirtschafts- 
und Politikraum relevant sein können. Im Idealfall umfasst ein urbaner Datenraum 
alle für die Kommunen und ihre Interessengruppen relevanten Daten aus allen Be- 
reichen (Energie, Mobilität, Gesundheit etc.) im kommunalen Umfeld, die sowohl in 
analogen, digitalen oder hybriden Kontexten entstehen. Dabei bezeichnet ein urba- 
ner Datenraum insbesondere den digitalen Raum als Wirtschaftsraum sowie als 
Rechts-, Erfahrungs-, Aktions-, Identifikations-, Kommunikations- und Sozialisati- 
onsraum für Menschen und Organisationen, die in einem privaten oder beruflichen 
urbanen Kontext zueinanderstehen. Ein urbaner Datenraum bietet die Daten in digi- 
taler Form, die über technische Standards zwischen den Akteuren sicher ausge- 
tauscht, miteinander verknüpft und weiterverwendet werden können, und so Optio- 
nen für datenbasierte Angebote und Innovation. 

Die logischen Grenzen eines urbanen Datenraums liegen dabei nicht unbedingt 
innerhalb eines bestimmten kommunalen Raums. Ein urbaner Datenraum kann 
auch auf die Dimensionen eines für eine Stadt oder Gemeinde wichtigen Wirt- 
schaftsraum als auch auf die damit verbundene Verwaltung, das Wohnen oder 
rechtliche, Erfahrungs-, Handlungs-, Identifikations-, Kommunikations- und Sozia- 
lisierungsräume ausgedehnt werden. So kann ein urbaner Datenraum alle Daten 
(nicht personenbezogene als auch personenbezogene) umfassen, die im urbanen 
Kontext von Personen, Systemen, Unternehmen, Umwelt und/oder Maschinen 
stammen, sei es intern, kommerziell oder frei verfügbar, sofern sie eng mit dem ent- 
sprechenden städtischen Raum verbunden sind. Zu den Zielen urbaner Datenräume 
gehören: 

- eine erhöhte Verfügbarkeit und Nutzbarkeit von urbanen Daten, 

- ein verbesserter Zugang zu und gemeinsame Nutzung von Daten innerhalb der 
kommunalen Verwaltung, durch in der Region agierende Unternehmen und an- 
dere Interessengruppen, 

- eine erhöhte Transparenz beim Umgang mit urbanen Daten, 


19 Vgl. Otto und Jarke 2019, 563-564. 
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— wohlfundierte Methoden und Prozesse für Datensicherheit und -schutz sowie 
Datenqualität, 

- die Standardisierung von urbanen Datenangeboten inklusive der Interoperabili- 
tät zu anderen Datenräumen, 

- die Entwicklung und der Ausbau von Kompetenzen für die Analyse urbaner Da- 
ten und datengetriebene Innovationen, 

- die Förderung datengestützter Geschäftsmodelle im urbanen Raum wie auch 

- der Aufbau flexibler digitaler Infrastrukturen in Städten und Gemeinden, über 
die urbane Daten bereitgestellt werden. 


Die Daten eines urbanen Datenraums können intern für ausgewählte Nutzergrup- 
pen, kommerziell für ausgewählte oder alle Nutzergruppen als auch frei verfügbar 
für alle Nutzergruppen bereitgestellt werden (s. Abb. 4). 


Abb. 4: Datenschichten im urbanen Datenraum (in Anlehnung an Schieferdecker et al. 2018, 19) 


Dabei stehen frei verfügbare Daten in engem Zusammenhang zu Initiativen zu offe- 
nen Daten und Open Government, umfassen jedoch neben offenen Daten ebenso 
Daten mit eingeschränkten Nutzungsbestimmungen, bspw. für eine ausschließlich 
nicht-kommerzielle Nutzung. Auch wenn die Creative-Commons-Lizenzen diverse 
Abstufungen für offene Nutzungsbestimmungen kennen, wird im Außenraum der 
Begriff „offene Daten“ oftmals mit „umfassend offene Daten“ verwechselt. Um dem 
vorzubeugen, kann der Begriff für verschiedene Nutzergruppen bis hin zur Allge- 
meinheit frei verfügbarer Daten genutzt werden. Mit frei verfügbaren Daten werden 
signifikante Impulse für eine Verbesserung von Beteiligung, Transparenz und Zu- 
sammenarbeit im urbanen Raum erwartet.”° Es wird erwartet, dass frei verfügbare 


20 Vgl. Geiger und von Lucke 2012, 271 ff. und Niedbal 2020. 
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Daten zu einer besseren Governance im Allgemeinen beitragen und auf der Verfah- 
rensebene verschiedene Mehrwerte für Politik, Verwaltung und Bürgerinnen bzw. 
Bürger bieten. Frei verfügbare Daten befördern Open Innovation” und ermöglichen 
Innovation in Wirtschaft, Verwaltung und Gesellschaft sowie soziale Innovation 
und wirtschaftliche Entwicklung.” 


Die Herausforderungen bei der Datenerfassung und -bereitstellung in einem ur- 


banen Datenraum ergeben sich auf mehreren Ebenen: 


So ist mit potenziellen Datenbereitstellenden zu klären, welche und wie ihre Da- 
ten einem möglichst breiteren Spektrum an Interessensgruppen zugänglich ge- 
macht werden können. Dazu sind Interaktionen mit kommunalen Verwaltun- 
gen, kommunalen und regionalen Unternehmen, lokalen Dienstleistern und an- 
deren Akteuren nötig. Dazu kann die Installation von zusätzlichen/neuen Sen- 
soren in relevanten Gebieten und Systemen als auch die Bereitstellung von 
Werkzeugen und Diensten für die Datenverarbeitung und -analyse erforderlich 
sein. 

Zudem sollte die Qualität der Daten gewährleistet werden, um zuverlässige und 
vertrauenswürdige datengetriebene Innovation zu ermöglichen. Wichtig sind 
dabei Aspekte wie die Korrektheit, Aktualität und Format- bzw. Standard-Kon- 
formität der Inhalts- und Metadaten. Dabei hängen Ausprägungen dieser Quali- 
tätsmerkmale von der Art der urbanen Daten ab. So sollten z. B. Sensordaten für 
typische Nah-Echtzeit-Anwendungen in Sekunden ggfs. gar Millisekunden be- 
reitgestellt werden, während es bei Daten der öffentlichen Verwaltung oftmals 
genügt, diese quartalsweise, halbjährlich oder jährlich bereitzustellen. 

Darüber hinaus ist die Qualität der Dateninfrastrukturen von großer Bedeutung, 
bspw. in Bezug auf die Einhaltung von Standards, die Interoperabilität zwi- 
schen den Komponenten, die Leistung, Skalierbarkeit wie auch die Robustheit 
und Sicherheit der Hardware- und Softwarekomponenten und in Bezug auf die 
Sicherheit der Datenangebote im Sinne von Vertraulichkeit, Integrität, Verfüg- 
barkeit und Datenschutz. 

Ebenso ist die Bereitstellung, Gewährleistung und Absicherung offener standar- 
disierter Schnittstellen zur interoperablen, gut integrierbaren und flexiblen Nut- 
zung der Datenangebote wesentlich, um neue Geschäftsmodelle für einen brei- 
ten Kreis von Drittanbietenden zu ermöglichen und eine starre, nicht übertrag- 
bare Bindung zwischen Datenbereitstellung und -nutzung zu vermeiden. 

Zudem sind im urbanen Datenraum Instrumente und Werkzeuge für den Daten- 
austausch einschließlich des Datenhandels bereitzustellen, um die Bereitstel- 
lung und Weiterverwendung urbaner Daten für kommerzielle Anwendungsfalle 
zu befördern. 


21 Vgl. Hightech Forum 2019. 
22 Vgl. Geiger und von Lucke 2012, 272. 
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- Ein weiterer wesentlicher Aspekt ist die rechtliche Absicherung urbaner Daten- 
räume und der enthaltenen Datenangebote. Die aktuelle rechtliche Lage für ur- 
bane Daten ist oft widersprüchlich und häufig nur auf Ebene einzelner Verträge 
feststellbar. Es gilt insbesondere die „faktische Verfügungsgewalt“, d.h. in der 
Praxis haben diejenigen die Datenhoheit, die die Dateninfrastruktur kontrollie- 
ren und damit die nötigen Zugriffsmöglichkeiten haben. Dies sind derzeit oft- 
mals außereuropäische Plattformanbietende. Daher sind urbane Datenräume 
schon jetzt regional zu verankern und organisatorisch und regulatorisch tief in 
die kommunalen Abläufe einzubinden. 


Für den Betrieb urbaner Datenräume können fünf wesentliche Rollen definiert wer- 
den:? 

— Datenausschuss - Der Datenausschuss ist ein Entscheidungsgremium für die 
Definition und Koordination von Richtlinien und Entscheidungen im Daten- 
raum. Bei Problemen innerhalb eines urbanen Datenraums ist der Datenaus- 
schuss für die Erarbeitung, Umsetzung und Verfolgung von Lösungen verant- 
wortlich. 

Governance-Verantwortliche — Pro urbanem Datenraum gibt es ein Mitglied für 
die Governance-Verantwortung, das für die Verbreitung, Förderung und Einhal- 
tung der Richtlinien und Entscheidungen des Datenausschusses zuständig ist. 
Die Mitglieder fungieren als Koordinatorinnen bzw. Koordinatoren für den urba- 
nen Datenraum innerhalb ihrer jeweiligen Organisation. 

Datenbereitstellende — Datenbereitstellende sind für die durch sie bereitgestell- 
ten urbanen Daten aus geschäftlicher Sicht verantwortlich. Die Verantwortung 
bezieht sich auf Themen wie die Nutzungsbestimmungen oder Qualität der Da- 
ten. Zudem kümmern sie sich um die gesetzlichen Anforderungen an eine Da- 
tenbereitstellung und sind für Aspekte der Lizenzierung und Kosten der Daten- 
nutzung zuständig. 

Datenverwaltende — Datenverwaltende tragen die Verantwortung für die Umset- 
zung der Anforderungen des Datenbereitstellenden, z.B. für ein ordnungsgemä- 
Bes (Meta-)Datenmanagement. Sie sind oftmals die Ansprechperson für die Nut- 
zerinnen und Nutzer urbaner Daten. 

Plattformadministratorin bzw. -administrator — Sie verwalten die technologi- 
schen Komponenten und Werkzeuge zur Bereitstellung, Aufbereitung und Nut- 
zung der urbanen Daten. Zudem sind sie für die technischen Aspekte Sicher- 
heit, Sicherung und Archivierung der urbanen Daten und ihrer Metadaten zu- 
ständig. 


23 Vgl. Schieferdecker et al. 2018, 174. 
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Auch wenn einzelne Personen einige der Rollen gleichzeitig ausüben können, sind 
sie doch in ihren Verantwortlichkeiten und Aufgaben zu unterscheiden und für ein 
professionelles Arbeiten im urbanen Datenraum jeweils zu etablieren. 


5 Bepreisung urbaner Daten 


Was vor zehn Jahren als Bewegung zur Bereitstellung und Öffnung von Daten der 
öffentlichen Hand begann,” hat sich mehr und mehr dahin weiterentwickelt, dass 
nicht nur Daten der öffentlichen Verwaltung - wie in Berlin,” Deutschland” oder 
Europa? - sondern auch Daten anderer Akteurinnen und Akteure und Branchen be- 
reitgestellt werden. So wird die Entwicklung von Open-Science-Datenplattformen 
wie Open Power System Data” oder Transparenz-Datenplattformen wie Netzdaten- 
Berlin” gefördert. 

Was frei verfügbare Daten der öffentlichen Hand betrifft, so legt die PSI-Richtli- 
nie? fest, dass Daten, die von öffentlichen Einrichtungen stammen, frei veröffent- 
licht und der Gesellschaft als offene Daten, für die in Ausnahmen Grenzkosten in 
der Bepreisung angesetzt werden können, zur Verfügung gestellt werden sollen. 
Darüber hinaus wächst das Verständnis, dass ein ganzes Datenuniversum zu eta- 
blieren ist: angefangen bei hochkritischen sicherheitsrelevanten Daten über ebenso 
zu schützenden personenbezogenen, kommerziellen gemeinwohlorientierten Daten 
bis hin zu umfassend offenen Daten. So rücken Daten (und Informationen) in zu- 
nehmendem Maße als Gut bzw. Ressource in der Datenwirtschaft in das Zentrum 
der Betrachtung, die auch für Kommunen und Städte ihre Wirkmächtigkeit entfalten 
können. 

Dabei ist auch bei Daten von Unternehmen eine geldleistungsfreie Bereitstel- 
lung von Daten den geldleistungspflichtigen Ansätzen vorzuziehen, da sie die Da- 
tennutzung und eine volkswirtschaftliche Wertschöpfung erhöht.” Eine geldleis- 
tungsfreie Bereitstellung minimiert gleichsam die Verwaltungs- und Abrechnungs- 
aufwände der öffentlichen Hand. Die nichtkommerzielle Nutzung urbaner Daten 
sollte möglichst geldleistungsfrei und im Falle der Bereitstellung durch die 6ffentli- 
che Hand grundsätzlich geldleistungsfrei sein. 


24 Vgl. Davies, Janssen und Schieferdecker 2014. 
25 Vgl. SenWTF 2011. 

26 Vgl. BMI 2013. 

27 Vgl. EU 2015. 

28 Vgl. OPSD 2015. 

29 Vgl. Stromnetz Berlin 2012. 

30 Vgl. EU 2019. 

31 Vgl. TSB 2014. 
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Jedoch sind frei zugängliche Daten wie oben beschrieben nur ein Teil urbaner 
Daten. Es gibt eine Vielzahl von urbanen Daten mit hoher Attraktivität und 6kono- 
mischen Potenzialen. Deren aktuelle, feingranulare und hochqualitative Aufberei- 
tung ist andererseits kostenintensiv, so dass die Kosten den ökonomischen Poten- 
tialen gegenübergestellt werden müssen. 

Vor dem Hintergrund der Heterogenität bei den Geldleistungsmodellen und zur 
Förderung branchenübergreifender Kompatibilität dieser (bspw. für die Kombinati- 
on von Daten) sollten gemeinsame Grundsätze zur Bepreisung der Datennutzung 
auf nationaler Ebene vereinbart und europäisch als auch international abgestimmt 
werden. Dazu sollten einige Eckpunkte berücksichtig werden: 

- Die Bepreisung der bereitgestellten Daten orientiert sich am Zweck ihrer Nut- 
zung. Geldleistungen sollten nur auf Dienste mit Mehrwertcharakter und Daten 
mit hohem Pflegeaufwand erhoben werden. 

- Die Erhebung von Geldleistungen für die Bereitstellung und Reproduktion von 
Daten für Dritte muss wirtschaftlich erfolgen und durch Zusatzaufwand gerecht- 
fertigt sein, z.B. durch die regelmäßige Aktualisierung von großen Datenmen- 
gen. 

- Die Bemessungsgrundlage für die Kalkulation von Geldleistungen ist auf die er- 
mittelten Zusatzkosten für die Bereitstellung und Reproduktion von Daten für 
Dritte zu beschränken (Kostendeckung). Die Höhe der in Rechnung zu stellen- 
den Zusatzkosten ist nach betriebswirtschaftlichen Methoden zur Preiskalkula- 
tion zu ermitteln. 

- Die Ermittlung von Geldleistungen sollte für die Verwaltung eines Datenraums 
einfach und für die Nutzerinnen und Nutzer nachvollziehbar sein. Die Anzahl 
der Parameter zur Ermittlung der Geldleistung sollte minimal sein. Ein gemein- 
sames Kalkulationsschema für die Bepreisung von Daten sollte zur Orientierung 
potenzieller Datenbereitstellender entwickelt werden. 


Dabei muss die Erhebung von Geldleistungen wirtschaftlich erfolgen: Sollte eine Er- 
hebung von Geldleistungen durch administrativen Aufwand, wie Rechnungsstel- 
lung, Zahlungsverfolgung, Rechnungswesen etc., für die öffentliche Verwaltung un- 
wirtschaftlich sein, ist von der Geldleistungspflicht Abstand zu nehmen. 


6 Urbane Daten als Gemeingüter 


Urbane Daten können ganz oder in Teilen einer gemeinschaftlichen Nutzung zuge- 
führt werden, um gesellschaftlichen Zusammenhalt zu stärken und soziale wie 


190 —— Ina Schieferdecker 


auch wirtschaftliche Innovationen zu heben.” Solche Daten werden als „Digitale 
Gemeingüter“ (engl. digital commons) bezeichnet. Sie können direkt oder als Ne- 
benprodukt auch gemeinschaftlich produziert oder gewartet werden (wie die On- 
line-Enzyklopädie Wikipedia,” Open Street Map,** Open Sea Map” oder die Daten 
und Anwendungen rund um WheelMap°°) und auch aus anderen Quellen, wie der 
öffentlichen Hand, stammen. 

Der traditionelle Begriff „Commons“, deutsch häufig als Gemeingut oder All- 
mende-Gut bezeichnet, ist kein Fachbegriff im engeren Sinne und umfasst allge- 
mein gesprochen eine Vielzahl nicht-privater Güter, die von einer Gruppe (ganz 
unterschiedlicher Größe, von lokal bis global) genutzt werden und die für unter- 
schiedliche soziale Dilemmata wie Übernutzung, Unterversorgung, Einhegung oder 
Ausgrenzung anfällig sind. Der Begriff wird in akademischen, politischen wie auch 
zivilgesellschaftlichen Diskursen sehr lebhaft, jedoch in teils sehr unterschiedlichen 
Ausprägungen genutzt und diskutiert. 

Im Gegensatz zu klassischen natürlichen Commons teilen die digitalen Gemein- 
güter die Charakteristika sogenannter „Social Commons“ (dt. soziale Gemeingüter, 
als Spezialfall auch „Anticommons“ oder Anti-Allmende) wie Wissen, Sprache oder 
das Internet, die prinzipiell nicht-rival sind, d.h. durch Nutzung nicht weniger wer- 
den oder ganz verbraucht werden. Dennoch ergeben sich soziale Dilemmata, etwa 
durch Ausschluss, Privatisierung oder Unternutzung. Als digitale Gemeingüter ver- 
steht der WBGU demnach normativ gewendet alle digitalisierten Daten-, Informati- 
ons- und Wissensgüter, die als nicht-rivale Ressourcen im Gemeininteresse mög- 
lichst breit, öffentlich zugänglich gemacht werden sollten und technisch über 
öffentlich-rechtliche Informations- und Kommunikationsinfrastruktur wie urbane 
Datenräume bereitzustellen sind.” Digitale Gemeingüter sind Instrumente für das 
Verständnis unserer natürlichen Lebensgrundlagen, gesellschaftlichen Rahmenbe- 
dingungen und für die informierte (aufgeklärte) Gesellschaft. Sie sind Quellen für 
Bildung, offene Diskurse und Beteiligung. Auf ihrer Grundlage können die digitale 
Kluft reduziert und nicht nur Digital- sondern auch andere Kompetenzen gestärkt 
werden. 

Frei verfügbare Daten in urbanen Datenräumen sind wesentliche digitale Ge- 
meingüter und können Fundament für Anwendungen im Sinne des Gemeinwohls 
sein: von Informationsplattformen etwa über Abstimmungen von Politikerinnen 
und Politiker über kommunale Transparenzportale (im Hinblick auf diesbezügliche 
Öffnung der öffentlichen Verwaltung, auf denen z.B. Statistiken, Verkehrsdaten, 


32 Vgl. WBGU 2019, 279 ff. 

33 Vgl. Wikipedia 2001. 

34 Vgl. Open Street Map 2004. 
35 Vgl. Open Sea Map 2009. 
36 Vgl. Sozialhelden 2010. 

37 Vgl. WBGU 2019, 280. 
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Umwelt- und Geodaten usw. zur Verfiigung gestellt werden) bis hin zu wissen- 
schaftlichen Publikationen, aber auch Hörfunk- und Fernsehsendungen. Auf dieser 
Basis wird nicht nur eine bessere Infrastrukturverwaltung, sondern auch ein einfa- 
cherer Austausch zwischen Bürgerinnen bzw. Bürgern und Behörden sowie bessere 
Datenlieferungen im Rahmen von Citizen Science bis hin zu der gemeinschaftlichen 
Erstellung einer frei verfügbaren digitalen Kartografie möglich.” 

Für eine breite Bereitstellung digitaler Gemeingüter werden praktikable Lösun- 
gen und Anreizstrukturen benötigt, wie sie durch urbane Datenräume befördert 
werden können. Aus ökonomischer Sicht hat die Bundesnetzagentur” nicht nur auf 
die große Bedeutung des Wettbewerbs- und Wertschöpfungsfaktors Daten in Netz- 
sektoren und für die digitale Netzwerkökonomie, sondern auch auf die Vielschich- 
tigkeit und Komplexität datenbezogener Fragestellungen hingewiesen. Für einen 
angemessenen Interessensausgleich der unterschiedlicher Marktakteure bestehe die 
wesentliche Herausforderung in der Entwicklung eindeutiger, innovationsfreundli- 
cher und datenschutzkonformer Regelungen, wie sie in urbanen Datenräumen an- 
gelegt werden können. Mit Blick auf Zielkonflikte etwa zwischen Verwertungsinter- 
essen und Verbraucherschutz sei laut Bundesnetzagentur eine umfassende, konti- 
nuierliche und proaktive Marktbeobachtung für eine fundierte Situationsbewertung 
und auch durch Berichtspflichten für Unternehmen entscheidend.” 


7 Weiterführende Informationen 


Interessierte finden mittlerweile umfassende Informationen zu methodischen 
Grundlagen, Anwendungen und Erfahrungen rund um urbane Daten. Die Fraunho- 
fer-Studie mit den Referenzkommunen Bonn, Dortmund, Emden und Köln analy- 
siert, welche Potenziale im Rahmen der Digitalisierung im urbanen Raum bislang 
ungenutzt bleiben und wie diese zukünftig besser umgesetzt werden kénnten.”! Die 
Studie empfiehlt den Kommunen, für eine verbesserte Nutzung und größere Verfüg- 
barkeit ihrer Daten einen individuell ausgestalteten urbanen Datenraum, der auf ei- 
nen gemeinsamen, möglichst deutschlandweit verfügbaren, offenen Plattformkern 
für urbane Datenräume aufbaut. 

Solche (urbanen) Datenräume wurden bereits mit der Software für das Open Go- 
vernment Portal für Deutschland”? angelegt und können darauf aufbauend effizient 


38 Vgl. Hagendorff 2016, 227 ff. 

39 Vgl. Bundesnetzagentur 2018, 43 ff. 

40 Vgl. Bundesnetzagentur 2018, 117 ff. 

41 Vgl. Schieferdecker et al. 2018. 

42 Vgl. Klessmann, Denker, Schieferdecker und Schulz 2012. 
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und kostengiinstig umgesetzt werden. Die Software kann sukzessive erweitert und 
an die jeweiligen Bediirfnisse einer Kommune angepasst werden. 

Wesentlich ist, dass urbane Daten in sog. maschinenverarbeitbaren, wohldefi- 
nierten und gut dokumentierten Formaten und stabilen Nutzungsbestimmungen, 
d.h. unter bekannten und zuverlässigen Bereitstellungs-, Aktualisierungs- und Kor- 
rekturraten zur Verfügung gestellt werden. Nur bei digitaler Verfügbarkeit, rechtlich 
und technisch wohldefinierten Nutzungsbestimmungen und zuverlässiger Bereit- 
stellung lassen sich die in vielfältigen Studien prognostizierten Mehrwerte urbaner 
Daten realisieren.” 

Zudem bieten Informationen zu Wissenschaftsdaten (entlang der Initiativen zu 
Nationalen Forschungsdateninfrastrukturen, kurz NFDI“*), zu Geodaten (entlang 
der Initiativen zu weltweiten Geoinformationssystemen unter Nutzung von INSPI- 
RE“) oder zu Industriedaten (entlang der Initiativen zu europäischen Dateninfra- 
strukturen, in Deutschland kurz Gaia-X“° genannt) in ihren organisatorischen, regu- 
latorischen als auch technischen Parallelen zu urbanen Daten interessante Anknüp- 
fungspunkte. 


Fazit 


Daten sind Ressourcen, deren Wert nach wie vor von vielen sehr hoch und teils 
auch überschätzt wird.” Klar ist jedoch, dass der Wert von Daten von ihren eigentli- 
chen Inhalten und Qualitätsmerkmalen wie Korrektheit, Aktualität, Genauigkeit 
oder Konsistenz sowie insbesondere von der Passfähigkeit zu den Geschäftsmodel- 
len abhängig ist. Vor diesem Hintergrund ist der Wettlauf um Daten im vollen Gan- 
ge. Während sich im Endkundenbereich als auch bei offenen Daten bereits vielfäl- 
tige Angebote etabliert haben (und sich bildende Monopolstrukturen kritisch hinter- 
fragt werden), sind Daten der Wirtschaft zur Produktion und zu Industrieprodukten 
als auch Daten der öffentlichen Räume zu Mobilität, Sicherheit, Umwelt, etc. ein ak- 
tuelles Innovationsfeld. Gerade mit urbanen (als auch Industrie- oder Forschungs- 
und Bildungs-)Daten lassen sich vielfältige neuartige Lösungen realisieren, deren 
Anforderungen nicht durch Daten aus dem Endnutzerbereich adressiert werden 
können. Vor diesem Hintergrund sind urbane Daten als Infrastrukturkomponente 
unserer Gesellschaft zu verstehen, zu ermöglichen und abzusichern. Die Daten- und 


43 Vgl. TSB 2014 und Kuzev 2018. 

44 Vgl. NFDI 2019 sowie Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Heraus- 
forderungen im Forschungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 

45 Vgl. INSPIRE 2007. 

46 Vgl. Gaia-X 2019. 

47 Vgl. TSB 2014. 
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darauf aufbauende Informationsversorgung wird so kritisch wie die Energie- oder 
Kommunikationsversorgung werden. Mit urbanen Datenräumen gibt es für ihre Be- 
reitstellung und Organisation passende Konzepte. Und vielleicht sprechen wir dem- 
nächst von Datenwerken mit derselben Verständlichkeit wie wir heutzutage von En- 
ergie- oder Wasserwerken sprechen. Wie Datenwerke beispielsweise eine nachhalti- 
ge Stadtentwicklung unterstützen können, wurde in Projekten der Morgenstadt- 
Initiative untersucht.*® 
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Janna Neumann 


3 Datenkultur 


Abstract: Die Datenkultur im Kontext des wissenschaftlichen Forschungsdatenma- 
nagements unterliegt im Zeitalter der Digitalisierung in der Wissenschaft einem kul- 
turellen Wandel. Wissenschaftlerinnen und Wissenschaftler werden mit vielfaltigen 
digitalen Möglichkeiten konfrontiert und es wird ihnen der verantwortungsvolle 
Umgang damit abverlangt. Mit zahlreichen Möglichkeiten zur Unterstützung der 
Wissenschaft beim Aufbau der digitalen Kompetenz und dem Wandel der Datenkul- 
tur hin zu einer verlässlichen digitalen Wissenschaft wird dem entgegengetreten. 


1 Begriffsdefinition 


Der Begriff Datenkultur beschreibt im Kontext des Forschungsdatenmanagements 
den Umgang mit Daten im Zeitalter der digitalen Wissenschaft. Der Rat für Informa- 
tionsinfrastrukturen (RfII) spricht auch von einer „neue[n] Datenkultur der Offen- 
heit und des Teilens“, die sich vor allem auf die Herausforderungen zur Sicherung 
der Datenqualität über den gesamten Datenlebenszyklus bezieht.! 

In Kap. 3 dieses Praxishandbuchs wird der Begriff der Datenkultur in den wis- 
senschaftlichen Kontext gefasst. Er führt die verschiedenen Gestaltungsmöglichkei- 
ten zusammen, die die Forschungsdatenkultur befördern und benennt dabei auch 
konkrete Handlungsfelder und Verantwortlichkeiten, die den Kulturwandel in der 
wissenschaftlichen Forschung unterstützen können. 

Die fortschreitende Digitalisierung von Forschungsprozessen wird dabei als 
neues oder erweitertes Kompetenzfeld betrachtet, das sich auch in der „Umset- 
zungsstrategie zur Gestaltung des digitalen Wandels“? der Bundesregierung wider- 
spiegelt. 


2 Datenkultur im Zeitalter der digitalen Wissen- 
schaft 


Warum aber rückt scheinbar der kulturelle Wandel im Umgang mit Daten im Digita- 
len an sich nun wissenschaftlich aber auch gesellschaftlich so in den Vordergrund? 


1 Rat für Informationsinfrastruktur 2016, 52. 
2 Vgl. Presse- und Informationsamt der Bundesregierung 2019. 
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Immerhin beschäftigt sich die Gesellschaft mit dem Thema Digitalisierung, also mit 
dem Umwandeln von analogen in digitale Formate, schon seit den 1970er und 
1980er Jahren. Und auch in der wissenschaftlichen Forschung gehörte ein gewissen- 
hafter Umgang mit Daten schon seit der 1998 veröffentlichten Denkschrift zur „Si- 
cherung guter wissenschaftlicher Praxis“? zum ethisch adäquaten Verhalten in der 
Wissenschaft. 

In der Umsetzungsstrategie der Bundesregierung zur Gestaltung des digitalen 
Wandels heißt es indes, dass sich mit dem digitalen Wandel die Art zu leben, zu 
arbeiten und zu lernen fundamental und mit rasender Geschwindigkeit verändert.” 
Mit fortschreitenden digitalen Möglichkeiten der Datenerhebung aber auch der Da- 
tenspeicherung und -archivierung vervielfacht sich die potentielle Verfügbarkeit 
von Daten. Um das Potential der digitalen Möglichkeiten ausschöpfen zu können 
aber auch den digitalen Wandel verantwortungsvoll mitzugestalten, bedarf es dem 
Auf- und Ausbau digitaler Kompetenzen. Dies gilt gleichermaßen für Wissenschaft, 
Wirtschaft, Staat und Gesellschaft. 

In diesem Kapitel wird der Blick auf den Umgang mit Daten, also der jeweiligen 
wissenschaftlichen Datenkultur fokussiert und auf die Möglichkeiten zum Aufbau 
des Kompetenzfeldes der Digitalität gerichtet. Auch wenn noch einige Barrieren 
durch fehlende Angebote und Dienste sowie Hemmschwellen aufgrund von bisher 
bewährten Arbeitsweisen existieren, so wird dennoch vielfach versucht Anreize und 
Erleichterungen bei der praktischen Umsetzung des Datenmanagements zu schaf- 
fen.’ Die Sensibilisierung für den wissenschaftskulturellen Wandel und für einen 
verantwortungsvollen Umgang mit Forschungsdaten geht auch mit einem Generati- 
onswechsel einher, um altbewährte Strukturen aufzubrechen, um nicht zu sagen 
mit ihnen zu brechen. Eingebettet in nationale oder auch internationale Strukturen 
können solche Prozesse erleichtert werden.° 

Doch allein auf einen Wechsel der Generationen zu warten (abgesehen davon, 
dass altbewährte Methoden gerne auch über Generationen hinweg „vererbt“ wer- 
den), wird die digitale Kompetenz in der Wissenschaft nicht steigern. Hier ist die 
Qualifizierung von Personal unabdingbar, wie sich in einigen bereits vorhandenen 
Aus- und Weiterbildungsmöglichkeiten zum Forschungsdatenmanagement in der 
deutschen Wissenschaftslandschaft, wenn auch noch nicht systematisch und flä- 
chendeckend eingerichtet, zeigt.’ Auch die curriculare Einbindung des (diszipli- 
nären) Umgangs mit Forschungsdaten kann als Mittel zur Qualifizierung schon 


3 Vgl. DFG 2013. 

4 Vgl. Presse- und Informationsamt der Bundesregierung 2019, 4. 

5 S. Beitrag von Oßwald, Kap. 3.5 in diesem Praxishandbuch. 

6 S. Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 

7 S. Beitrag von Rothfritz et al., Kap. 3.4 in diesem Praxishandbuch. 
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wahrend der wissenschaftlichen Ausbildung dienen und wird derzeit in bibliotheks- 
und informationswissenschaftlichen Studiengängen in Deutschland erprobt.® 

Beim Aufbau von Diensten zum Forschungsdatenmanagement, die die Wissen- 
schaftlerinnen und Wissenschaftler in der praktischen Umsetzung unterstützen 
können und somit den kulturellen Wandel bei den Forschenden, die sich nicht 
mehr in der Ausbildung befinden, anzustoßen, bietet sich, zusätzlich zu den bereits 
genannten in der Wissenschaft angesiedelten Möglichkeiten, die Entwicklung von 
Beratungs- und Schulungskonzepten in den wissenschaftsunterstützenden Einrich- 
tungen an.? 


Fazit 


Forschungsdatenmanagement und der damit einhergehende Umgang mit wissen- 
schaftlichen Daten und Objekten gibt es schon so lange wie die Wissenschaft selbst. 
Im Zeitalter der Digitalisierung und der zunehmenden Öffnung der Wissenschaft 
hin zu transparenter Forschung, erreicht das Thema eine andere Dimension. For- 
schungsdaten werden zunehmend als Grundlage wissenschaftlicher Forschung 6f- 
fentlich und auch zur Nachnutzung zur Verfügung gestellt. Dies geht aber nur im 
Zusammenhang mit einem kulturellen Wandel sowohl in der Wissenschaft selbst 
als auch in ihrem Umgang mit Daten. Auch wenn dieser Prozess immer noch eher 
am Anfang steht und disziplinär zudem sehr unterschiedlich ausgeprägt ist, werden 
dennoch erste Änderungen hinsichtlich einer offeneren Datenkultur sichtbar. Zwar 
wurden der Wandel lange nur von einzelnen datenintensiven Wissenschaften, wie 
beispielsweise die Klimaforschung,’° und vor allem von Seiten der wissenschaftsun- 
terstützenden Infrastruktureinrichtungen getrieben. Nicht zuletzt gaben aber die 
Forderungen und Entwicklungen hin zu einer Nationalen Forschungsdateninfra- 
struktur (NFDI)" auch in der breiten Fläche der wissenschaftlichen Disziplinen ei- 
nen weiteren Anstoß hin zu einer sich weiter öffnenden Datenkultur in der wissen- 
schaftlichen Forschung. 


8 S. Beitrag von Fühles-Ubach und Albers, Kap. 3.1 in diesem Praxishandbuch. 

9 S. Beitrag von Helbig, Kap. 3.3 in diesem Praxishandbuch. 

10 S.a. Beitrag von Thiemann et al., Kap. 5.5 in diesem Praxishandbuch. 

11 S. a. Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Herausforderungen im 
Forschungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 
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Simone Fiihles-Ubach und Miriam Albers 
3.1 Bewusstseinsbildung im Curriculum 


Abstract: Die Themen Forschungsdaten und Forschungsdatenmanagement ist in al- 
len wissenschaftlichen Disziplinen ein Thema der vergangenen Jahre. Bibliotheka- 
rinnen und Bibliothekare, ebenso wie Fachwissenschaftlerinnen und Fachwissen- 
schaftler bemühen sich um fachübergreifende Metadatenstandards einerseits und 
anderseits um einen disziplinspezifischen Umgang mit den Daten innerhalb der je- 
weiligen Fachgemeinschaft. Der folgende Beitrag untersucht, inwieweit die Bemii- 
hungen sich bereits in Curricula niederschlagen und damit fest in die wissenschaft- 
liche Ausbildung integriert wurden. Dies wird konkret fiir die bibliotheks- und infor- 
mationswissenschaftlichen Studiengänge im deutschsprachigen Raum anhand der 
verfügbaren Modulbücher analysiert. Darüber hinaus wird eine kurze Einschätzung 
des Sachstands für die Fachdisziplinen gegeben. 


Einleitung 


Forschungsdatenmanagement (FDM) ist ein zentrales Thema für die künftige wis- 
senschaftliche Publikationskultur. Niemand würde dieser Aussage derzeit wider- 
sprechen. Konsequenterweise hat die Hochschulrektorenkonferenz (HRK) eine um- 
fassende Unterstützung dieses Themas und daher den Aufbau einer nationalen 
Forschungsdateninfrastruktur (NFDI) schon im Jahr 2016 gefordert.! Dies wird nach 
einer Ausschreibungs- und Auswahlphase im Jahr 2017 seit Anfang 2018 umgesetzt.? 
Nicht zuletzt durch die Schaffung zentraler und staatlich geförderter Strukturen ist 
und wird der Aufbau von Produkten und Dienstleistungen zum FDM für wissen- 
schaftliche Bibliotheken ein wichtiges Aufgabenfeld. Das Thema FDM muss daher 
auch in den Curricula der bibliothekarischen und informationswissenschaftlichen 
Studiengänge Eingang finden oder idealerweise schon vorhanden sein. Wie ist der 
Status quo der Vermittlung an Hochschulen für dieses vergleichsweise noch „jun- 
ge“ Thema? In welchem Umfang kann dies in einem Studium, welches für viele, 
sehr heterogene Bibliothekstypen, Zielgruppen und Informationsbedarfe vorberei- 
ten soll, behandelt werden? In diesem Kapitel werden diese Fragen an Hand einer 
Untersuchung der derzeit aktuellen Modulbücher aller informationswissenschaftli- 
cher Studiengänge im deutschsprachigen Raum beantwortet. 


1 Vgl. Hochschulrektorenkonferenz 2016. 
2 Vgl. Bundesanzeiger 2018 sowie Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und 
Herausforderungen im Forschungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 
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1 FDM in bibliotheks- und informationswissen- 
schaftlichen Studiengängen 


Die Archivierung, Bereitstellung und Sichtbarmachung von Forschungsdaten (FD) 
unterscheidet sich aufgrund der heterogenen Daten- und Metadatenstrukturen, den 
großen Datenmengen und dem damit einhergehenden Hard- und Softwareeinsatz 
stark von traditionellen wissenschaftlichen Publikationen wie Zeitschriftenartikeln 
und Büchern, sei es in der gedruckten oder elektronischen Form. FDM erfordert da- 
her eine explizite Ergänzung von Inhalten in bibliotheks- und informationswissen- 
schaftlichen Studiengängen und kann nicht durch Ausweitung anderer Themen mit 
abgedeckt werden. 


1.1 Forschungsstand 


Im Wiki von „forschungsdaten.org“ werden FDM-Angebote von deutschen und in- 
ternationalen Universitäten und Fachhochschulen auf der Seite „Ausbildung und 
Qualifikation“ aufgelistet. Hier werden insgesamt zehn deutsche Hochschulen ver- 
linkt sowie u.a. acht Hochschulen aus Großbritannien und sechs Einrichtungen aus 
den USA. Worin genau das Angebot an der jeweiligen Hochschule besteht, wird hier 
jedoch nicht systematisch erfasst.’ 

In zwei aktuellen Analysen aus dem Jahr 2018 wurde die Berücksichtigung von 
Inhalten aus dem Bereich des FDMs in deutschen bibliothekarischen und informati- 
onswissenschaftlichen Studiengängen untersucht. In beiden Fällen wurde dieses 
Thema jedoch nicht isoliert, sondern als ein Thema von weiteren aktuellen Entwick- 
lungen“ oder IT-Themen? allgemein untersucht. 

Die Professoren Gantert, Neher und Schade der Hochschulen in München, Pots- 
dam und Hamburg haben FDM dabei als Teil der digitalen Transformation dem Be- 
reich „Open Access und Open Science“ und „Digitale Langzeitarchivierung“ zuge- 
ordnet. Beispielhaft wurden weiter die Forschungsschwerpunkte von sieben 
Hochschulen vorgestellt. FDM wird dabei als wichtiges Thema an der Humboldt- 
Universität zu Berlin, der Hochschule Hannover und der Hochschule Darmstadt 
identifiziert.° 

Ausführlicher ist die Analyse von 179 Stellenanzeigen aus den Jahren 2012-2017 
sowie von 14 Bachelor- und neun Masterstudiengängen von Cedrik Zellmann im 
Rahmen seiner Bachelorarbeit an der Hochschule Hannover im Jahr 2018. Er sieht 


3 Vgl. Forschungsdaten.org 2019a. 
4 Vgl. Gantert et al. 2018, 446. 

5 Vgl. Zellmann 2018, 10. 

6 Vgl. Gantert et al. 2018, 448. 
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FDM als ein IT-Thema aus dem Bereich des Datenmanagements. 21 (d.h. ca. zwölf 
Prozent) der ausgewerteten 179 Stellen enthalten „FDM“ in ihrer Stellenbeschrei- 
bung, insgesamt 43 Stellen befassten sich insgesamt allgemein mit Datenmanage- 
ment.’ Datenorientierte Stellen setzten nach seinen Ergebnissen meist einen Master 
voraus und sind in 90 Prozent der Fälle befristet. Zellmann wendet daher kritisch 
ein, dass eine Ausbildung im Bereich FDM im Bachelorbereich möglicherweise für 
den Arbeitsmarkt bisher nicht zielführend ist, da Stellen im FDM üblicherweise ei- 
nen Master-Abschluss erfordern.® Zellmann durchsucht zudem die Modulbücher 
von 14 Bachelor- und neun Masterstudiengängen und findet dort in neun von 14 Ba- 
chelor- und sechs von neun Masterstudiengängen mindestens eine Veranstaltung 
zum Thema „FDM“.? In der Analyse der Auswertung wird deutlich, dass FDM nicht 
zwingend als IT-Thema wahrgenommen zu werden scheint. So findet dieses Thema 
im Masterstudiengang „Bibliotheksinformatik“ an der Technischen Hochschule 
Wildau bisher keine Beriicksichtigung.!° Dahingegen scheint es in den meisten bi- 
bliothekarischen Studiengängen berücksichtigt zu werden. 


1.2 Grenzen 


Abgesehen von der noch offenen Frage, ob und falls ja, welche Kenntnisse aus dem 
FDM von den Arbeitgebern auf Bachelor-Niveau überhaupt nachgefragt werden, 
gibt es weitere Gründe, warum der Berücksichtigung von FDM im Curriculum Gren- 
zen gesetzt sind. 

Bibliotheken und andere Informationseinrichtungen bedienen bekanntermaßen 
eine Vielzahl von Nutzendengruppen im Auftrag von unterschiedlichen Trägern. 
Dementsprechend sind die Inhalte in bibliothekarischen und informationswissen- 
schaftlichen Studiengängen breit gefächert. Eine intensive Berücksichtigung eines 
Themas kann somit nur erfolgen, wenn diese Inhalte für die Nutzendengruppe und/ 
oder den Auftraggebenden von zentraler Bedeutung sind. Forschungsdaten und ihr 
Management sind daher ein Thema für Forschende und damit für wissenschaftliche 
Bibliotheken, d.h. Hochschulbibliotheken und Bibliotheken von Forschungsein- 
richtungen. Für Studierende dürfte die Beschäftigung mit FDM jedoch entweder in 
den späten Bachelor-Semestern oder aber in den Masterstudiengängen erfolgen, 
weil Studierende erst dann selbst forschen. 

Für Studierende aus bibliotheks- und informationswissenschaftlichen Studien- 
gängen ist eine Spezialisierung nach Bibliothekstyp im Bachelor erst spät vorgese- 


7 Vgl. Zellmann 2018, 36. 

8 Vgl. Zellmann 2018, 75-80. 

9 Vgl. Zellmann 2018, 67. 

10 Vgl. Technische Hochschule Wildau 2017. 
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hen. Für diejenigen, die sich auf Öffentliche Bibliotheken fokussieren möchten, ist 
das Thema FDM als Dienstleistung nicht virulent, im Schwerpunkt wissenschaftli- 
che Bibliotheken und Forschungsbibliotheken ist es ein Fokus. Welche Berücksich- 
tigung von FDM kann vor diesem Hintergrund erwartet werden? 


2 Untersuchung aktueller Modulbücher von 
Studiengängen im Bereich der Bibliotheks- und 
Informationswissenschaft 


Zu Beginn des Kapitels wurde die Behauptung aufgestellt, dass FDM ein wichtiges 
Thema sei. Eine These, die sicher der derzeitigen Wahrnehmung vieler wissen- 
schaftlichen Bibliothekarinnen und Bibliothekare sowie Informationsspezialistin- 
nen und -spezialisten entspricht. Aber wird dieses Thema auch von den Hochschu- 
len und den künftigen Absolvierenden so wahrgenommen? Die folgende Analyse 
soll die Frage beantworten, ob FDM in den aktuellen Modulbüchern der bibliotheka- 
rischen und informationswissenschaftlichen Studiengänge berücksichtigt wird. Im 
Unterschied zu Zellmann 2018 ist die Evaluation deutlich umfangreicher. So werden 
hier auch Studiengänge in Österreich und der Schweiz betrachtet. Zudem werden 
bei Zellmann 2018 lediglich die Module aufgeführt, in welchen FDM genannt wur- 
de." Hier werden auch weitere Angaben wie Höhe des Semesters und Anzahl von 
Leistungspunkten berücksichtigt. Somit kann nicht nur ermittelt werden, ob Inhalte 
zu FDM gelehrt werden, sondern auch in welchem Umfang und auf welchem Anfor- 
derungsniveau. 


2.1 Methode und Vorgehensweise 


Die Analyse umfasst eine Suche nach den Wörtern „Forschungsdaten“, „FDM“ so- 
wie „research data“ in den aktuellen Modulbiichern” von informations- und biblio- 
thekswissenschaftlichen Studiengängen im deutschsprachigen Raum.” 


11 Vgl. Zellmann 2018, 67. 

12 Hierbei werden nur Veranstaltungsbezeichnungen und -beschreibungen gefunden, die in den 
Modulbüchern explizit aufgeführt sind. Wahlfächer, die ohne konkrete Bezeichnung oder mit wech- 
selnden Themen gefüllt werden, sind hier nicht auffindbar. 

13 Grundsätzlich war auch vorstellbar, dass Themen des FDM in Studiengängen zu „Wissenschafts- 
management“ enthalten sind. Eine Suche in den Master-Studiengängen „Wissenschaftsmarketing“ 
an der Technischen Universität Berlin, „Europäische Forschungs-, Hochschul- und Innovationsgo- 
vernance“ an der Universität Göttingen, „Hochschul- und Wissenschaftsmanagement“ an der Uni- 
versität Münster, „Bildungs- und Wissenschaftsmanagement“ an der Universität Oldenburg, „Hoch- 
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Für die Untersuchung wurden die Modulbücher von insgesamt 35 Studiengän- 
gen an insgesamt 20 Hochschulen in Deutschland, Österreich und der Schweiz 
durchsucht: Bibliotheksakademie Bayern, Humboldt-Universität zu Berlin, Hoch- 
schule Darmstadt, Heinrich-Heine-Universität Düsseldorf,” Hochschule für Ange- 
wandte Wissenschaften Hamburg, Hochschule Hannover, Universität Hildesheim, 
Technische Hochschule Köln, Universität Konstanz, Hochschule für Technik Wirt- 
schaft und Kultur Leipzig, Archivschule Marburg (Hochschule für Archivwesen), 
Fachhochschule Potsdam, Universität Regensburg, Hochschule der Medien Stutt- 
gart, Technische Hochschule Wildau; in der Schweiz: Universität Bern, Hochschule 
für Technik und Wirtschaft Chur, Fachhochschule Westschweiz (Genf), Universität 
Zürich und der Universität Innsbruck in Österreich. 

In der Analyse wurden nur die jeweils aktuell gültigen Modulbücher ausgewer- 
tet. Diese stammen in den meisten Fällen aus dem Jahr 2018 mit einer Abweichung 
von maximal zwei Jahren. Diese Ausnahmen wurden in der Ergebnistabelle mit ei- 
ner Fußnote gekennzeichnet. 


2.2 Ergebnisse 


„Forschungsdaten (FD)“, „Forschungsdatenmanagement (FDM)“ oder „research 
data (RD)“ wurde in 21 verschiedenen Lehrveranstaltungsbezeichnungen und/oder 
-beschreibungen in 19 Studiengängen an zehn Hochschulen gefunden. Ungefähr 
die Hälfte aller Studiengänge und Hochschulen dieser Analyse bieten damit Inhalte 
zu diesen Schlagwörtern an. Die Ergebnisse werden in Tab. 1 ausführlich darge- 
stellt. Darin werden der Standort bzw. die Hochschule, der Name des Studiengangs, 
die Einordnung in Bachelor (BA) oder Master (MA), Titel der Lehrveranstaltung, in 
welchem Semester (Sem.) diese Lehrveranstaltung stattfindet und wie viele Leis- 
tungspunkte (European Credit Transfer System — ECTS) dafür festgelegt wurden. Zu- 
letzt wird in der Tabelle aufgeführt, bei welchem Suchwort (FD, FDM und/oder RD) 
diese Lehrveranstaltung gefunden wurde. 


schul- und Wissenschaftsmanagement“ an der Hochschule Osnabrück, „Wissenschaftsmanage- 
ment“ an der Deutschen Universität für Verwaltungswissenschaften Speyer sowie „Innovations- 
und Wissenschaftsmanagement“ an der Universität Ulm brachten in keinen Fall ein Treffer. Aus 
diesem Grund wurden diese Studiengänge aus der weiteren Analyse ausgeschlossen. 

14 Die Bibliotheksakademie bietet keine Studiengänge, sondern sog. Ausbildungen im Beamten- 
verhältnis an. Diese sind jedoch von Anspruch und Inhalten mit Studiengängen an Hochschulen 
vergleichbar. 

15 Der Bachelor-Studiengang Informationswissenschaft wird mit Ablauf des 30.09.2020 eingestellt. 
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Tab. 1: Die Begriffe „FD“, „FDM“ und „RD“ in den aktuellen Modulbüchern informationswissen- 


schaftlicher Studiengänge im deutschsprachigen Raum. 


Standort Name des BA MA Titel der Sem. ECTS Treffer bei 
Studiengangs Lehrveranstaltung 
Berlin Bibliotheks- und X Informationspro- 2 10 FD 
(Uni) Informationswis- duktion und - 
senschaft management 
Informationsma- X Informationspro- 2 10 FD 
nagement & Infor- duktion und - 
mationstechnolo- management 
gie 
Information Sci- X Digitale Informa- 2 10 FD 
ence?® tionsversorgung 
Chur (FH) Information and X Trends in Data 4 5 FD 
Data Management Management 
Darmstadt Information Sci- X Digitale Biblio- 4 5 FD 
(FH) ence theken 
FDM und Daten- 5 5 FD, FDM 
modellierung in 
Bibliotheken 
Information Sci- x FDM 1 5 FD, FDM 
ence 
Genf (FH) Information und X Ressources elec- 4 6 RD 
Dokumentation?” troniques et ar- 
chives institution- 
nelles 
Hannover Informationsma- X Managementvon 6 6 FDM 
(FH) nagement'® Forschungsinfor- 
mationen 
Köln (FH) Bibliothek und X Informations- 4 6 FDM 
digitale Kommuni- services 
19 
kation Forschungsdaten 4 6 FD 
Data and Informa- X Forschungsdaten 4 6 FD 
tion Science”? 
Library and Infor- X Wahlpflichtmodul 3 4 FD, FDM 


mation Science?! 


16 Vgl. Modulbuch aus dem Jahr 2017. 
17 Vgl. Modulbuch aus dem Jahr 2017. 
18 Vgl. Modulbuch aus dem Jahr 2017. 
19 Vgl. Modulbuch aus dem Jahr 2019. 
20 Vgl. Modulbuch aus dem Jahr 2019. 
21 Vgl. Modulbuch aus dem Jahr 2016. 


3.1 Bewusstseinsbildung im Curriculum —— 207 


Standort Namedes BA MA Titel der Sem. ECTS Treffer bei 
Studiengangs Lehrveranstaltung 
München Bibliotheks- und X Digitale Bibliothek 6 5 FDM 
(FH) Informationsma- 
nagement 
Potsdam Bibliothekswis- x Informations- 1 5 FD 
(FH) senschaft ressourcen und 
-dienste 1 
Wissenschaftli- 2 5 FD 
ches Arbeiten und 
statistische Me- 
thoden 
Digitale Langzeit- 6 6 FD, FDM 
archivierung und 
FDM 
Vermittlung von 6 7 FDM 
Informationskom- 
petenz 
Informations- und X Wissenschaftlich- 2 5 FD 
Datenmanage- es Arbeiten und 
ment statistische 
Methoden 
Digitale Langzeit- 6 6 FD, FDM 
archivierung und 
FDM 
Datenmanage- 6 6 FD 
ment 
Archiv x Wissenschaftlich- 2 5 FD 
es Arbeiten und 
statistische 
Methoden 
Informationswis- x FDM 6 6 FDM 
senschatt X Projekt 11 FD, FDM 
Stuttgart Bibliotheks- und X FDM 6 6 FD, FDM 
(FH) Informationswis- 
senschaften 
Bibliotheks- und x FDM 2 6 FD, FDM 
Informationsma- 
nagement 
Zürich Bibliotheks- und x Datenmanage- 2 6 FD, FDM 


Informationswis- 
senschaft?? 


22 Vgl. Modulbuch aus dem Jahr 2017. 


ment und Digitali- 
sierung 
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Von den 19 gefundenen Studiengängen sind sieben Masterstudiengänge und zwölf 
Bachelorstudiengänge. Die hohe Abdeckung auch in Bachelor-Studiengängen zeigt, 
dass die Beschäftigung mit FD insgesamt als breites Beschäftigungsfeld und Thema 
für Bibliothekarinnen und Bibliothekare auf allen Ebenen gesehen wird. Dabei ist 
anzunehmen, dass der Schwerpunkt im Bachelor auf operativen, im Master mehr 
auf strategischen Inhalten liegt.” Zurzeit erfolgen konkrete Stellenausschreibungen 
für Bibliothekspersonal im Bereich FDM meist aber (noch) auf Master-Niveau, was 
auch damit zu tun haben kann, dass an vielen Stellen noch umfangreiche konzep- 
tionelle und vor allem auch stark fachlich orientierte Aufbauarbeit zu leisten ist. 

Auf der Ebene der Lehrveranstaltungen finden sich in der Tabelle Dopplungen, 
da in den Hochschulen in Berlin, Köln und Potsdam die gleichen Lehrveranstaltun- 
gen (da mit gleichem Namen) in verschiedenen Studiengängen durchgeführt wer- 
den. Etwas weniger als die Hälfte aller Lehrveranstaltungen (zehn) haben FD, FDM 
oder nur „Daten“ sogar im Titel der Lehrveranstaltung, so dass davon auszugehen 
ist, dass dieses Thema umfassend behandelt wird. Die Lehrveranstaltungen finden 
im Mittel (Median) im 4. Semester statt und haben einen Umfang von sechs ECTS. 
Die Anzahl der ECTS bleibt im Master und Bachelor bei getrennter Auswertung 
gleich. Im Bachelor finden die Veranstaltungen im Mittel (Median) im 4. Semester, 
im Master im 2. Semester statt. Aufgrund der Komplexität und des Spezialisierungs- 
grades des Themas im Bachelor-Studiengang, wo die Spezialisierung häufig in den 
höheren Semestern z.B. über Wahlpflichtfächer erfolgt, ein erklärbarer Unter- 
schied. 


3 FDM in anderen Disziplinen 


In Zukunft wird es nicht ausreichen, sich beim Thema Forschungsdaten auf die Cur- 
ricula der bibliotheks- und informationswissenschaftlichen Studiengänge zu kon- 
zentrieren, denn hier wird die generische, fächerübergreifende Perspektive sicher- 
lich im Vordergrund stehen. Perspektivisch werden sich auch Veranstaltungen in 
einzelnen Fachdisziplinen entwickeln. Beide Perspektiven müssen zusammenfin- 
den. 

Diese Tendenz zeigt sich auch in der angekündigten Zusammenführung der bei- 
den Informationsplattformen zum FDM, forschungsdaten.org und forschungsdaten. 
info, wie dies im Vorfeld der Research Data Alliance (RDA) Deutschland Tagung 2019 
am 19. und 20. Februar 2019 in Potsdam in einem Workshop skizziert wurde.” 


23 Vgl. Zellmann 2018, 75-76. 
24 Vgl. Ritz 2019. 
25 Vgl. Forschungsdaten.org 2019b. 
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Es wurde erkannt, dass die beiden Plattformen sich dem Phänomen FD von 
zwei Seiten nähern, die sich an unterschiedlichen Zielgruppen orientieren: Wäh- 
rend forschungsdaten.org Informationen zu aktuellen Entwicklungen für FDM-Ex- 
pertinnen und -Experten in Hochschulen und außeruniversitären Forschungsein- 
richtungen bereitstellt - und damit auch für Bibliothekarinnen und Bibliothekare - 
bietet das Angebot forschungsdaten.info einführende Beiträge zum FDM für For- 
schende aller Disziplinen.” Das Vorhaben, die beiden Perspektiven zu verschmel- 
zen, bringt die generische und die fachwissenschaftliche Perspektive zusammen, 
was eine Grundvoraussetzung für die gemeinsame Entwicklung von Standards und 
die übergreifende Zusammenarbeit von Disziplinen und Bibliotheken darstellt. 

Nachdem in den bibliotheks- und informationswissenschaftlichen Studiengän- 
gen nun bereits zahlreiche Lehrveranstaltungen auf unterschiedlichen Bachelor- 
oder Masterebenen existieren, stellt sich die Frage, ob dies auch bereits auf einzelne 
wissenschaftliche Fachdisziplinen zutrifft. Die Frage ist insofern schwierig zu beant- 
worten, als die Modulbücher der Studiengänge häufig versteckt auf den Unterseiten 
der Hochschulen zu finden sind und so eine flächendeckende Recherche kaum 
möglich ist. Dennoch wurde eine exemplarische Recherche für Naturwissenschaften 
gestartet, d.h. für Astronomie, Physik, Biologie, Chemie, Geologie bzw. Geowissen- 
schaften, Meteorologie und Pharmazie. Das Vorgehen erfolgte über eine Google-Re- 
cherche im Advanced-Search-Modus mit den Suchbegriffen „Forschungsdaten“ 
„Modul“ bzw. „Forschungsdaten“ „Lehrveranstaltung“ und der Einschränkung auf 
die genannten Naturwissenschaften, die mit logischem „oder“ verbunden gesucht 
wurden. Gesucht wurde über die Begriffe „Modul“ und „Lehrveranstaltung“, da 
sich diese Termini technici explizit in Curricula bzw. Modulbüchern und auch in 
Prüfungsordnungen wiederfinden. Diese Recherche ergab - bei einer Einschrän- 
kung auf deutsche Suchergebnisse — nur einen Treffer für Lehrveranstaltungen oder 
Module, die in einem Modulbuch als reguläre und regelmäßige Veranstaltung zu 
finden ist. Alle weiteren Treffer beziehen sich auf andere Projekte und Initiativen. 
Am Institut für Meteorologie der Freien Universität Berlin wird im Rahmen des DFG- 
Projektes „Entwicklung von Workflowkomponenten für die Langzeitarchivierung 
von Forschungsdaten in den Geowissenschaften (EWIG)“ seit dem WS 2012/2013 
das Modul „Datenmanagement“ in der Bachelor-Ausbildung im Fach Meteorologie 
angeboten, das u.a. die langfristige Verfügbarkeit von FD thematisiert. Dieser Tref- 
fer wurde jedoch nicht über das Modulbuch des Studiengangs gefunden, sondern 
über die Webseite des DFG-Projektes EWIG.” 


26 Vgl. Forschungsdaten.org 2019a. 
27 Vgl. Projekt Ewig 2020. 
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Was in diesem Kontext auch entwickelt wurde, ist eine Handreichung für Geo- 
wissenschaftlerinnen und -wissenschaftler,?® die Methoden und Werkzeuge des Da- 
tenmanagements vorstellt und auch Fragen des Umgangs mit den FD thematisiert. 

Noch in der Entwicklung sind „Forschungsdatenkurse für Studierende“ im 
BMBF-Projekt „FOKUS“ (Laufzeit 2017-2019)”, in dem fünf hessische Einrichtun- 
gen” kooperieren, um fachbezogene, modulare Schulungseinheiten im Bereich des 
FDM zu entwickeln.” Dabei sind bereits nachnutzbare Einführungskurse” und auch 
Forschungsdatenkurse für Studierende und Graduierte” entstanden bzw. entwickelt 
worden. Die Projektleitung lag bei der leitenden Bibliotheksdirektorin der Universi- 
tätsbibliothek Marburg und nicht in einzelnen Fakultäten oder Disziplinen. 

Ein anderer Weg wird in den Sozialwissenschaften beschritten. Hier gibt es das 
CESSDA-Training. Dies ist ein Angebot des Leibniz-Institut für Sozialwissenschaften 
in Köln — GESIS im Rahmen des Consortium of European Social Science Data Archi- 
ves (CESSDA). Das Training bietet Unterstützung für Forschende beim Management, 
der Pflege und der Archivierung sozialwissenschaftlicher FD mit einem Schwer- 
punkt in der Archivierung und Kuratierung digitaler FD.” Dabei werden zahlreiche 
Online-Materialien zum Download angeboten. 

Auf der Plattform forschungsdaten.info werden die Initiativen der Bundesländer 
aufgelistet,” jedoch finden sich dort keine weiteren Vorlesungs- oder Lehrveranstal- 
tungskonzepte. Im Kontrast zu umfangreichen Veranstaltungskonzepten werden 
z.B. in Nordrhein-Westfalen auch niederschwellige Dienstleistungsangebote wie 
„Sciebo Research Data Services“?° für Forschende entwickelt, dessen Workflows 
und Services die Forschenden bei der Durchführung eines strukturierten FDM unter- 
stützen sollen.” Hier werden sich sicherlich zahlreiche Dienstleistungskonzepte 
entwickeln, die von der vollständigen Dienstleistung, z.B. durch Bibliotheken bis 
hin zur autarken Speicherung bei den Forschenden oder an anderen Stellen der 
Hochschule entwickeln. Maßgeblich wäre die Festlegung einer einheitlichen diszi- 


28 Vgl. Bertelmann et al. 2014. 

29 Vgl. Krähwinkel 2019. 

30 Technische Universität Darmstadt (Chemie, Informatik), Goethe-Universität Frankfurt Main 
(Filmwissenschaften, GRADE - Goethe Research Academy for Early Career Researchers), Hochschu- 
le Fulda (Graduierte), Justus-Liebig-Universität Gießen (Veterinärmedizin, Erziehungswissenschaf- 
ten), Philipps-Universität Marburg (Erziehungswissenschaften, Germanistik und Wirtschaftswissen- 
schaften). 

31 Vgl. Uni-marburg.de 2019. 

32 Vgl. Becker et al. 2019a. 

33 Vgl. Becker et al. 2019b. 

34 Vgl. https://www.cessda.eu/Training. Letztes Abrufdatum der Internet-Dokumente ist der 
15.11.2020. 

35 Vgl. Forschungsdaten.info 2019a. 

36 Vgl. Heiss 2019. 

37 Vgl. Forschungsdaten.info 2019b. 
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plinübergreifenden Metadatenstruktur, um den gegenseitigen Austausch und die 
Wiederauffindbarkeit zur realisieren. 


4 Praxistransfer 


Für den Transfer in die Praxis erscheint es wichtig, auf eine aktive Beobachtung der 
derzeitigen Konzentrations- und auch Konsolidierungsbemühungen hinzuweisen, 
wie sie in der perspektivischen Zusammenarbeit von forschungsdaten.org und for- 
schungsdaten.info (s. 0.) bereits angekündigt wurden und wie sie sich letztlich auch 
in der nationalen Forschungsdateninfrastruktur (NFDI) zeigen. Die Vorteile einer 
zentralen Informationsplattform für Aktivitäten, die bundesweit gestartet und geför- 
dert werden, sind unübersehbar. Darüber hinaus soll auch noch einmal auf die ex- 
plizit als „nachnutzbar“ ausgewiesenen, aus dem Projekt FOKUS hervorgegangenen 
Online-Einführungen sowie Forschungsdatenkurse für Studierenden und Graduier- 
te hingewiesen werden. Auch das bayerische Projekt eHumanities” arbeitet inter- 
disziplinär und entwickelt entsprechende Materialien. Über das Wissen zu solchen 
Angeboten kann mögliche Doppelarbeit verhindert werden. 


Fazit 


In der Zusammenfassung lässt sich sagen, dass das Thema Forschungsdaten im Be- 
reich der bibliotheks- und informationswissenschaftlichen Studiengänge bereits 
breiten Raum einnimmt. In sieben Master- und zwölf Bachelorstudiengängen im 
deutschsprachigen Raum ist das Thema in verschiedenen Ausprägungen bereits in 
die Curricula der Studiengänge eingeflossen und wird so die zukünftigen Generatio- 
nen von Bibliothekarinnen und Bibliothekaren beschäftigen. 

Für die wissenschaftlichen Fachdisziplinen lässt sich hingegen noch kein nen- 
nenswerter Niederschlag in Curricula konstatieren, was allerdings wegen der be- 
srenzten Recherchierbarkeit von Modulbüchern nur als grobe Einschätzung gewer- 
tet werden kann. Für die einzelnen Wissenschaftsgebiete existieren zahlreiche 
Initiativen, die zum Teil mit eher geringem, zum Teil auch mit dezidiertem Biblio- 
theksbezug oder unter deren Leitung (s. Projekt FOKUS) entwickelt werden. 

Für die Zukunft sind mehrere Szenarien vorstellbar. Nach einer Entwicklung 
von disziplinübergreifenden Metadatenstandards könnte das Thema FDM in die flä- 
chendeckend vorhandenen Veranstaltungen zum „wissenschaftlichen Arbeiten“ in- 


38 Vgl. Becker et al. 2019a, 2019b. 
39 Vgl. Forschungsdatenmanagement Bayern 2020. 
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tegriert werden, die häufig auch in Kooperation mit den Bibliotheken angeboten 
werden. Bei größerer Komplexität im Bereich des Datenmanagements und der Nach- 
nutzbarmachung sind auch disziplinspezifische Entwicklungen z.B. zur Vernetzung 
mit internationalen Partnern vorstellbar. Aus bibliothekarischer Sicht steht sicher- 
lich die Entwicklung und Etablierung generischer, disziplinübergreifender Dienste 
und Standards zum Forschungsdatenmanagement auch zukünftig im Vordergrund. 
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3.2 GO FAIR und GO CHANGE: Chancen fiir das 
deutsche Wissenschaftssystem 


Abstract: Der vorliegende Beitrag beschäftigt sich mit der GO FAIR-Initiative und 
deren angestrebten Auswirkungen auf das deutsche Wissenschaftssystem. Die In- 
itiative hat das Ziel, die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wie- 
derverwendbarkeit von Forschungsdaten zu verbessern. Ihr offener und bottom-up- 
gestiitzter Ansatz zielt auf die Einbindung aller Forschungsbereiche und EU-Mit- 
gliedsstaaten ab und soll Forschungsdaten zukünftig länder- und disziplinübergrei- 
fend nachnutzbar machen. Da Forschungsfelder immer häufiger interdisziplinärer 
Natur sind, ist dies fiir den Erkenntnisfortschritt in der datenbasierten und immer 
stärker digitalisierten Forschung - letztendlich fiir das gesamte Wissenschaftssys- 
tem - ein bedeutender Mehrwert. 

Speziell zur thematischen Sensibilisierung der im Wissenschaftssystem Tätigen 
wurde das Handlungsfeld GO CHANGE eingerichtet. Es soll dabei unterstützen, einen 
verantwortungsvollen und professionellen Umgang mit FAIRen Forschungsdaten zu 
kultivieren. Im Folgenden wird zunächst ein Überblick über die GO FAIR-Initiative 
und deren Struktur gegeben. Von besonderer Bedeutung sind hierbei die Implemen- 
tierungsnetzwerke (IN), welche sich im Handlungsfeld GO CHANGE gegründet haben. 
Exemplarisch werden anhand des Implementierungsnetzwerkes für Sozial-, Verhal- 
tens- und Wirtschaftswissenschaften (Eco-SocIN) die Spannbreite, Nutzungscommu- 
nity und Beteiligungsmöglichkeiten am Datenkulturwandel aufgezeigt, wie er auch 
für sensible Daten anzustreben ist. Insgesamt soll dieser Artikel die Relevanz von GO 
CHANGE und die damit verbundenen Bemühungen und Ziele herausstellen und die 
positiven Auswirkungen auf das deutsche Wissenschaftssystem verdeutlichen. 


Einleitung 


Digitalisierungsprozesse in der Wissenschaft eröffnen grundlegend neue Möglich- 
keiten für einen interdisziplinären Forschungsprozess und Erkenntnisgewinn, was 
sich insbesondere auf Forschungsmethoden und Forschungsdaten niederschlägt. 
Berechtigterweise werden solche Prozesse deshalb von Seiten wissenschaftspoliti- 
scher Akteurinnen und Akteuren unterstützt und gezielt vorangetrieben. Problema- 
tisch ist jedoch, dass die Etablierung eines hierzu notwendigen Forschungsdaten- 
managements (FDM) disziplinübergreifend in Deutschland trotz einiger guter Bei- 
spiele bislang weitestgehend durch zeitlich begrenzte Initiativen geprägt ist. Diese 


3 Open Access. © 2021 Monika Linne, Ines Drefs, Nora Dörrenbächer, Pascal Siegers, Mathias Bug, publiziert von 
De Gruyter. [CIE] Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-013 
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Initiativen sind größtenteils nur gering koordiniert und werden auf Projektbasis 
durch Drittmittel finanziert. In diesem Sinne fehlt aus Sicht des Rats fiir Informati- 
onsinfrastrukturen (RfII)! eine nachhaltige Grundversorgung der Forschenden mit 
niedrigschwelligen und dauerhaften FDM-Services fiir das Forschungsdatenma- 
nagement und es besteht Handlungsbedarf in zahlreichen Feldern.* Forschende 
benötigen zuverlässige Unterstützung und Beratung zur nachhaltigen Datendoku- 
mentation (Metadaten), Datenorganisation (Dateiformate, Datenaustausch), Daten- 
speicherung und -archivierung, rechtliche Rahmenbedingungen (Urheberrecht, Da- 
tenschutz, Lizenzierung) und Möglichkeiten zur Datenpublikation (Repositorium, 
Datenzentren, Persistente Identifier). 

Zusätzlich zu den FDM-Services und notwendigen Tools mangelt es parallel an 
einem Mentalitätswandel hin zu einer größeren Akzeptanz des Forschungsdatenma- 
nagements als wissenschaftliche Leistung seitens der Forschenden und deren Com- 
munities. Das enorme (interdisziplinäre) Forschungspotenzial, welches aus einem 
strukturierten FDM resultiert, wurde von Forschenden, aber auch von einigen wis- 
senschaftlichen Einrichtungen noch nicht erkannt. So liegt es den meisten For- 
schenden leider immer noch fern, eine etwaige Archivierung oder gar Veröffentli- 
chung ihrer Forschungsdaten von Beginn an in ihre Forschungsprozesse zu 
integrieren. Dieser Umstand ist nicht zuletzt auch auf einen befürchteten Mehrauf- 
wand und die Sorge vor Kontrollverlust zurückzuführen.” An dieser Stelle setzt GO 
CHANGE an. Hierbei handelt es sich um ein Handlungsfeld der GO FAIR-Initiative, 
die sich als interdisziplinäres Netzwerk versteht, „bestehend aus Personen und Or- 
ganisationen, die sich in unterschiedlichen Projekten auf der ganzen Welt dafür en- 
gagieren, Forschungsobjekte auffindbar, zugänglich, interoperabel und wiederver- 
wendbar zu machen“.* 

Zentrale Forderung der GO FAIR-Initiative ist, dass Forschungsdaten den so ge- 
nannten FAIR-Prinzipien entsprechen und auffindbar (Findable), zugänglich (Ac- 
cessible), interoperabel (Interoperable) sowie wiederverwendbar (Re-usable) sein 
sollen.” Diese Forderung basiert auf einem breiten wissenschaftspolitischen Kon- 
sens. So verlangen beispielsweise die Förderkriterien zum Aufbau der Nationalen 
Forschungsdateninfrastruktur (NFDI)® in Deutschland eine „strategy for data use, 
access, findability and reusability in accordance with the FAIR principles“ von den 


1 S. http://www.rfii.de. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 

2 Vgl. RfII 2016, 37. 

3 Vgl. Zenk-Möltgen et al. 2018; Beitrag von Oßwald, Kap. 3.5 in diesem Praxishandbuch. 

4 Drefs et al. 2018, 638. 

5 Vgl. Wilkinson et al. 2016. 

6 S. https://www.dfg.de/foerderung/programme/nfdi/. 

7 DFG 2019, 2. S. a. Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Herausforde- 
rungen im Forschungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 
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sich bewerbenden Konsortien. Auf europäischer Ebene gelten die FAIR-Prinzipien 
als wichtige Grundsätze für den Aufbau der European Open Science Cloud (EOSC).® 
Zur Erarbeitung klarer Umsetzungsempfehlungen hat das Executive Board der EOSC 
unlängst eine spezialisierte Arbeitsgruppe eingesetzt, die „FAIR working group“.? 
Auf globaler Ebene wäre letztlich sogar ein umfassendes „Internet of FAIR Data and 
Services (IFDS)“ denkbar bzw. anzustreben.'° Während digitale Wissensinfrastruk- 
turen wie die NFDI, die EOSC oder das IFDS noch im Entwicklungsstadium stehen 
und somit relativ abstrakt sind, stellen sich in der Praxis schon ganz konkrete Fra- 
gen: Wie kann es gelingen, die FAIR-Prinzipien dort zu etablieren, wo sie letztend- 
lich umgesetzt werden müssen, nämlich dort, wo Daten als Grundlage des For- 
schungsprozesses entstehen: in den Laboren und Büros der Forschenden? Wie kann 
FAIRes FDM fester Bestandteil guter wissenschaftlicher Praxis werden? Welche An- 
reize müssen geschaffen werden, damit Forschende eine extrinsische oder sogar in- 
trinsische Motivation zum Data Sharing entwickeln? Hierfür ist ein Kulturwandel 
nötig, zumal es in der herrschenden Wissenschaftskultur einiges an Vorbehalten ge- 
geniiber dem Teilen von Forschungsdaten gibt. Einen solchen Mentalitätswandel zu 
befördern, hat sich die GO FAIR-Initiative mit dem Handlungsfeld GO CHANGE zum 
Ziel gesetzt, dessen Inhalte und Ziele in diesem Beitrag näher beschrieben werden 
sollen. 


1 Die GO FAIR-Initiative 


Die GO FAIR-Initiative verfolgt das Ziel, die Akzeptanz der FAIR-Prinzipien zu stei- 
gern und auf ihre breite Anwendung hinzuwirken. Den Startschuss hierfür bildete 
Ende 2017 eine gemeinsame Vereinbarung des Bundesministeriums für Bildung und 
Forschung (BMBF) und der Wissenschaftsministerien der Niederlande und Frank- 
reich, die GO FAIR-Initiative durch die Einrichtung eines sogenannten „GO FAIR In- 
ternational Support and Coordination Office“ (im Folgenden „GO FAIR-Büro“ ge- 
nannt) zu unterstützen. Die Idee, die dahinterstand, war, Vorreitern auf dem Gebiet 
des FDM eine niedrigschwellige Möglichkeit zu bieten, gemeinsam an der Umset- 
zung der FAIR-Prinzipien zu arbeiten — auch jenseits von großen Forschungsprojek- 
ten und etablierten Informationsinfrastrukturen. Auf diese Weise sollen in der aktu- 
ellen hochdynamischen Entwicklungsphase innerhalb des FDM redundante Ent- 
wicklungen vermieden werden und stattdessen bereits entwickelte Lösungen breite 
Anwendung finden. 


8 Vgl. EOSC Declaration 2017; Beitrag von Streit und van Wezel, Kap. 1.2in diesem Praxishandbuch. 
9 Vgl. EOSCsecretariat 2019. 
10 Vgl. Ayris et al. 2016, 12. 
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Das von den drei Wissenschaftsministerien geförderte Büro hat demnach die Auf- 
gabe, ein länder- und disziplinenübergreifendes Netzwerk aus Personen und Organi- 
sationen aufzubauen, die sich für die Auffindbarkeit, Zugänglichkeit, Interoperabili- 
tät und Wiederverwendbarkeit von Forschungsdaten engagieren - sei es in Bezug auf 
technische Lösungen, Aus- und Weiterbildungskonzepte oder eben den notwendigen 
kulturellen Wandel unter Forschenden. Unter dem Dach der GO FAIR-Initiative kön- 
nen sich die interessierten Akteurinnen und Akteure in so genannten „Implementie- 
rungsnetzwerken“ (IN) zusammenfinden, um auf bestimmte Herausforderungen bei 
der Umsetzung der FAIR-Prinzipien zu fokussieren und diese gemeinsam anzugehen. 
Seit Anfang 2018 ist das GO FAIR-Büro an den Standorten Hamburg (Deutschland), 
Leiden (Niederlande) und Paris (Frankreich) aktiv. Am Hamburger Standort istes an 
der ZBW - Leibniz-Informationszentrum Wirtschaft" angesiedelt. Hier koordinieren 
und unterstützen wissenschaftliche Referentinnen und Referenten die GO FAIR-In- 
itiative auf vielfältige Weise. Sie identifizieren Synergiepotenziale zwischen be- 
stehenden und zukünftigen GO FAIR-Akteurinnen und -Akteuren und bieten zu die- 
sem Zweck beispielsweise Vernetzungsmöglichkeiten auf organisierten Workshops 
und Jahrestreffen. Außerdem sorgen die Referentinnen und Referenten dafür, dass 
Standards und Best Practices, die von sogenannten GO FAIR-Implementierungsnetz- 
werken entwickelt werden, möglichst weite Verbreitung finden, indem sie Projekter- 
gebnisse verständlich und zielgruppengerecht aufarbeiten. Im folgenden Kapitel soll 
dargestellt werden, wie FDM-Akteurinnen und -Akteure einem IN beitreten oder sel- 
ber die Initiative zur Gründung eines solchen ergreifen können. 


SDFAR governance structures 


International Support and Coordination Office (GFISCO) 


community community community 


coordinators DTi coordinators èta coordinators/teams 
IN IN l IN f IN IN IN IN IN IN IN IN IN 


policy, DS plans, next gen metrics etc. training, certification, standards etc. core technology, data, tools, compute. 


GO CHANGE GO TRAIN 


« Education/training 


* Certification 


Abb. 1: Die Sdulen-Struktur der GO FAIR-Initiative!? 


11 S. https://www.zbw.eu/de. 
12 Grafik vom internationalen GO FAIR-Koordinations- und Unterstiitzungsbiiro zur Verfiigung ge- 
stellt. 
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2 Die GO FAIR-Implementierungsnetzwerke 


Die IN der GO FAIR-Initiative bearbeiten die themen- und disziplinenspezifischen 
Probleme bei der Umsetzung der FAIR-Prinzipien im Forschungsprozess. Sie sollen 
Lösungen und Standards erarbeiten, die von den bestehenden Infrastrukturen und 
Forschungscommunities angeboten und etabliert werden. Damit sind die IN ein 
Kernelement bei der Verbreitung der FAIR-Prinzipien. 

Zur Gründung eines IN gibt es zwei Möglichkeiten: Interessierte treten entweder 
einem bestehenden Netzwerk bei oder sie gründen ein eigenes. Um einen aktuellen 
Überblick über bereits bestehende IN zu erhalten, lohnt sich ein Besuch der GO 
FAIR-Website.” Mit einem Klick auf eines der hier verlinkten IN lassen sich Informa- 
tionen zu deren Betätigungsfeldern und Zielen abrufen. Derzeit gibt es knapp 20 ak- 
tive IN, die zumeist disziplinäre Communities repräsentieren (wie z.B. Chemie, Ma- 
terialwissenschaft oder Wirtschafts- und Sozialwissenschaften). Über ein Online- 
Formular besteht die Möglichkeit, mit den Koordinatorinnen und Koordinatoren des 
jeweiligen IN in Kontakt zu treten. Stellt sich dabei heraus, dass die Aktivitäten 
bzw. Ziele der Interessierten sich mit denen des IN überschneiden, können die Koor- 
dinatorinnen und Koordinatoren sie ganz formlos in das Netzwerk aufnehmen - 
entweder als individuelle Mitglieder oder als Repräsentantinnen bzw. Repräsentan- 
ten ihrer Organisation. 

Mit dem Beitritt zu einem GO FAIR-Implementierungsnetzwerk erkennen Neu- 
mitglieder die Verhaltensregeln („Rules of Engagement“) der GO FAIR-Initiative 
an. Diese besagen beispielsweise, dass es bei der Mitgliederaufnahme keine Diskri- 
minierung geben darf, dass die Initiative von ihren Mitgliedern selbst verwaltet 
wird und dass eine Mitgliedschaft bei GO FAIR nicht zu Lobbyzwecken missbraucht 
werden darf. Jedes IN erklärt in einem sogenannten „Manifest“, dass seine Mitglie- 
der diese Verhaltensregeln anerkennen. Das Manifest besteht aus einem zwei- bis 
dreiseitigen Dokument, welches darüber hinaus Angaben über den Zweck und die 
Ziele eines IN enthält und in dem auch sämtliche Mitglieder aufgeführt werden. 

Möchte eine Gruppe von Interessierten ein neues IN zu einem Themengebiet 
gründen, das in der GO FAIR-Community bislang noch nicht bearbeitet wird, so 
muss sie ein solches Manifest erstellen. Dabei liefert das GO FAIR-Büro Unterstüt- 
zung, zum Beispiel in Form einer Vorlage, die ebenfalls auf der Website zu finden 
ist.” Außerdem besteht die Möglichkeit, das Manifest im Rahmen einer Schreib- 
werkstatt („Manifesto Writing Workshop“) zu verfassen, die einmal im Monat am 
ZBW - Leibniz-Informationszentrum Wirtschaft in Hamburg angeboten wird. Sobald 
die Interessengruppe sich auf die Inhalte ihres Manifests geeinigt und eine oder meh- 


13 S. https://www.go-fair.org/implementation-networks/overview. 
14 S. https://www.go-fair.org/resources/rules-of-engagement. 
15 S. https://www.go-fair.org/manifesto-template. 
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rere Koordinatorinnen bzw. Koordinatoren bestimmt hat, reicht sie das Dokument 
beim GO FAIR-Büro ein, wo es dann von den Direktorinnen und Direktoren des Büros 
offiziell bestatigt wird. Von diesem Zeitpunkt an wird das IN auf der GO FAIR-Website 
als „aktives Implementierungsnetzwerk“ gelistet und seine Mitglieder können an 
übergreifenden GO FAIR-Veranstaltungen teilnehmen und in Zusammenarbeit mit 
dem GO FAIR-Büro eigene themenspezifische Veranstaltungen planen. 


3 GO CHANGE - GO TRAIN - GO BUILD 


Zur Umsetzung der FAIR-Prinzipien wird zurzeit ein Netzwerk aus länder- und diszi- 
plinübergreifenden Implementierungsprojekten aufgebaut, so dass Synergien ge- 
schaffen und folglich redundante Arbeiten innerhalb der drei Handlungsfelder ver- 
mieden werden. Sämtliche Aktivitäten der GO FAIR-Initiative unterstützen die 
Philosophie von Open Science, um u.a. Forschungsdaten oder Softwarecode - 
wann immer möglich - offen zugänglich zu machen und zur Nachnutzung zur Ver- 
fügung zu stellen. Als Vorteile werden dadurch Forschungsergebnisse transparent, 
weitere Forschung wird kostengünstig ermöglicht, Qualitätssicherung kann betrie- 
ben und Vertrauen in die Wissenschaft hergestellt bzw. aufrechterhalten werden. 
Somit ebnet die GO FAIR-Initiative sowohl den Weg zur NFDI als auch zur EOSC, 
welche den wissenschaftlichen Fortschritt und eine interdisziplinäre Forschung zu- 
künftig in Deutschland und ganz Europa vorantreiben werden. 

Um das Wissenschaftssystem auf allen Ebenen zu durchdringen, sind Anstren- 
gungen in verschiedenen Handlungsfeldern notwendig. Innerhalb der GO FAIR-Initia- 
tive werden diese als GO CHANGE, GO TRAIN und GO BUILD bezeichnet (s. Abb. 2). 


GS)CHANGE GSTRAIN G®@BUILD 


Culture Training Technology 


£ a £ 
22 2 a2 


GO FAIR International Support and Coordination Office 


Abb. 2: Die drei Handlungsfelder der GO FAIR-Initiative*® 


16 https://www.go-fair.org/go-fair-initiative/. 
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GO CHANGE zielt auf den kulturellen Wandel ab, der die FAIR-Prinzipien zu einem 
normativen Referenzrahmen für den Umgang mit Forschungsdaten in den Wissen- 
schaften macht. Hierdurch sollen Belohnungssysteme reformiert werden, so dass of- 
fene wissenschaftliche Aktivitäten einbezogen und die den Forschungsergebnissen 
zugrundeliegende Daten zukünftig als ein wichtiges Ergebnis des Forschungspro- 
zesses anerkannt werden. 

GO TRAIN beschäftigt sich mit der Aus- und Weiterbildung erforderlicher Daten- 
expertinnen und -experten. Bereits vor Beginn eines Forschungsprojektes muss mit- 
tels eines Datenmanagementplans eine aussagekräftige Beschreibung der For- 
schungsdaten geplant werden, so dass die Forschungsdaten nach Abschluss des 
Projektes nachnutzbar sind. Für diesen verantwortungsvollen Umgang ist die Ver- 
mittlung von Kernkompetenzen im Bereich Datenadministration (Data Stewardship) 
elementar. Die Datenadministration nimmt eine Vermittlungsposition zwischen 
Wissenschaft und Infrastrukturentwicklern ein. 

GO BUILD befasst sich mit dem Bedarf an interoperablen und föderierten For- 
schungsdateninfrastrukturen. Hierdurch wird eine Harmonisierung von Standards, 
Protokollen und Diensten angestrebt, die es allen Forschenden ermöglicht, wissen- 
schaftliche Daten fachübergreifend zu hinterlegen, abzurufen, zu verknüpfen und 
zu analysieren. 

Dem Handlungsfeld GO CHANGE kommt bei der praktischen Umsetzung der 
FAIR-Prinzipien eine besondere Rolle zu. Denn obwohl die Notwendigkeit zum Data 
Sharing mittlerweile von vielen Forschenden und forschungsfördernden Einrichtun- 
gen anerkannt wird, bleibt ein übergreifender Mentalitätswechsel bzw. Kulturwan- 
del diesbezüglich aus. Nach wie vor verhalten sich die meisten Forschenden eher 
zurückhaltend, wenn es um das Teilen der eigenen Daten geht,” in den Commu- 
nities gab es - initiiert unter anderem durch die Deutsche Forschungsgemeinschaft 
(DFG) - eine Auseinandersetzung, die zur Aufnahme eines transparenten FDM in 
den Kanon guter wissenschaftlicher Arbeit fiihrte.!® Diese deutsche Dynamik nimmt 
GO CHANGE mit einem europäischen Anspruch auf. Im Folgenden sollen die Rele- 
vanz von GO CHANGE und die damit verbundenen Bemühungen behandelt werden. 


17 Vgl. Linne und Zenk-Möltgen 2017. 
18 Vgl. DFG 2019, Leitlinie 13, 17. 
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4 Data Sharing aktuell 


Auch wenn innerhalb der letzten Jahre weltweit eine steigende Bereitschaft seitens 
der Forschenden zum Data Sharing zu verzeichnen ist,” konnte sich im deutschen 
Wissenschaftssystem bisher keine flächendeckende Data-Sharing-Kultur und eine 
daraus resultierende selbstverständliche FDM-Praxis durchsetzen. Dies bestätigt 
u.a. das vom BMBF geförderte Verbundprojekt UNEKE,”° in dessen Rahmen von 
2017 bis 2019 eine Umfrage zur Bedarfsanalyse eines zukunftsgerichteten FDM für 
Institutionen an deutschen Hochschulen durchgeführt wurde. Hieran nahmen ins- 
gesamt 1684 Personen von 13 Hochschulen aus allen Forschungsbereichen teil. 
Über die Hälfte aller Befragten gab an, ihre Forschungsdaten nach Erstverwertung 
nicht veröffentlichen oder teilen zu wollen, obwohl die Mehrwerte einer offenen Da- 
tenkultur bekannt sind. Lediglich vier Prozent der Forschenden nutzten For- 
schungsdatenrepositorien (FDR) oder Datenzentren zur Archivierung oder Veröf- 
fentlichung ihrer Daten und ebenso wenige Personen verwendeten allgemeine oder 
fachspezifische Metadatenstandards.”! Dieser Umstand ist insbesondere vor dem 
Hintergrund kritisch zu betrachten, als die Verwendung von Repositorien und stan- 
dardisierter Metadaten unerlässlich ist, um Forschungsdaten im Sinne der FAIR- 
Prinzipien auffindbar, zugänglich, interoperabel und nachnutzbar zu machen. 

Dieser Trend deckt sich mit den Informationen des Open Science Monitors 
(OSM) der Europäischen Kommission,” der die Entwicklungen und Aktivitäten der 
Open-Science-Bewegung europaweit und disziplinübergreifend beobachtet. In Euro- 
pa wird das Teilen von Forschungsdaten laut OSM vorrangig zwischen Forschenden 
praktiziert, die im selben Projekt arbeiten oder sich persönlich kennen. Eine Weiter- 
gabe an Forschende, die persönlich nicht bekannt sind, fand im Jahr 2016 nur in 14 
Prozent aller erhobenen Fälle statt und zwei Jahre später sogar nur noch in elf Pro- 
zent (s. Abb. 3). 


19 Vgl. Vocile 2017. 

20 Die Abkürzung UNEKE ist das Akronym für „Vom USB-Stick zur NFDI - Entwicklung eines Kri- 
terien geleiteten Entscheidungsmodells für den Aufbau von Forschungsdateninfrastrukturen“; s. 
https://uneke.de/. 

21 Vgl. Rehwald und Brenger 2019. 

22 S. https://ec.europa.eu/info/research-and-innovation/strategy/goals-research-and-innovation- 
policy/open-science/open-science-monitor_en. 
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Sharing of research data: % of researchers that have directly 
shared research data from their last project, by recipient 


Reference dates: 2016 and 2018 
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% of researchers that have directly shared research data from their last 
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@ 2018(n=506) @ 2016 (n = 699) 
Abb. 3: Data Sharing nach Empfänger 2016 und 2018 (Open Science Monitor)? 


Im OSM werden keine Gründe für diese Zurückhaltung angegeben. Solche sind al- 
lerdings im Wiley Open Science Researcher Survey 2016% aufgeführt, in dem welt- 
weit 4 600 Autorinnen und Autoren in 112 Ländern zu ihrem Data-Sharing-Verhalten 
befragt wurden. Der Studie gemäß sind die vier meistgenannten Gründe, warum 
Forschende zögern, ihre Forschungsdaten zu teilen, die folgenden: 

- 50% - “Intellectual property or confidentiality issues”? 

- 31% - “Ethical concerns” 

- 23% - “Iam concerned about misinterpretation or misuse of my research”? 

- 22% - “Iam concerned that my research will be scooped”?® 


Die Hälfte aller Befragten geht davon aus, dass ihre Erhebungsdaten aus daten- 
schutz- und urheberrechtlichen Gründen nicht veröffentlicht werden dürfen und 
beinahe jede/jeder Dritte gibt ethische Bedenken als Grund an. In den meisten Fäl- 


23 https://ec.europa.eu/info/research-and-innovation/strategy/goals-research-and-innovation-po- 
licy/open-science/open-science-monitor/facts-and-figures-open-research-data_en. 

24 S. https://doi.org/10.6084/m9.figshare.4748332. 

25 Vocile 2017. 

26 Vocile 2017. 

27 Vocile 2017. 

28 Vocile 2017. 
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len ist hierfiir eine Unkenntnis beziiglich datenschutz- und urheberrechtlicher An- 
forderungen verantwortlich zu machen, was nicht zuletzt daran liegt, dass die dies- 
bezügliche Rechtslage einerseits sehr komplex und andererseits in Teilen ungeklärt 
ist. Dies führt sowohl zu Unsicherheiten als auch zu Fehlverhalten seitens der For- 
schenden. Beispielsweise sind Datenschutzformulierungen in informierten Einwilli- 
gungen oftmals aus Unwissenheit zu restriktiv, wodurch Nachnutzungsmöglichkei- 
ten unnötigerweise eingeschränkt oder gar komplett ausgeschlossen werden.” 

Neben der rechtlichen Unsicherheit spielen mangelndes Vertrauen und eine 
von Konkurrenz geprägte Forschungsmentalität eine relevante Rolle. Die Forschen- 
den haben Sorge vor fehlerhaft durchgeführten Replikationsstudien und daraus fol- 
genden Reputationsverlusten oder aber auch Missbrauch ihrer Forschung. Darüber 
hinaus befürchten sie, dass andere ihre Forschungsdaten zum eigenen Reputations- 
gewinn verwenden könnten, ohne dass ein Reputationstransfer auf die Primärfor- 
schenden erfolgt.*° 

Auf die bekannten Vorteile des Data Sharings soll an dieser Stelle nicht mehr 
eingegangen werden. Vielmehr sollen die Chancen hervorgehoben werden, welche 
die GO FAIR-Initiative insbesondere mit ihrem Handlungsfeld GO CHANGE hinsicht- 
lich eines Kulturwandels zum Data Sharing im Wissenschaftssystem mit sich brin- 
gen. 


5 Die besondere Rolle von GO CHANGE 


Dem Handlungsfeld GO CHANGE kommt innerhalb der GO FAIR-Initiative, aber ins- 
besondere über die Initiative hinaus, eine wesentliche Rolle zu. Aktuell fehlt ein 
funktionierendes Belohnungs- und Anreizsystem fiir ein effizientes Data Sharing, 
welches den notwendigen Kulturwandel unterstützen und beschleunigen könnte. 
An dieser Stelle setzt GO CHANGE an: 


GO CHANGE zielt auf den kulturellen Wandel, der die FAIR-Prinzipien zu einem funktionieren- 
den Standard in der Wissenschaft macht und die Belohnungssysteme so reformiert, dass offene 
wissenschaftliche Aktivitäten einbezogen werden und Forschungsdaten zukünftig als ein wich- 
tiges Ergebnis des Forschungsprozesses anerkannt werden. 


Aus diesem Grunde wurde die Säule GO CHANGE innerhalb der GO FAIR-Initiative 
eingerichtet. Die Bemühungen in GO CHANGE sollen die Koordination zwischen 
vorhandenen FDM-Projekten optimieren und weitere Aktivitäten einleiten, welche 
langfristig zum kulturellen Wandel und einem daraus resultierenden Mentalitats- 


29 Vgl. Droß und Naujoks 2019, 28-30. 
30 S.a. Beitrag von Oßwald, Kap. 3.5 in diesem Praxishandbuch. 
31 ZBW 2019. 
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wandel der Forschenden und ihrer Communities führen sollen. Innerhalb der Säule 

wurden u.a. folgende Ziele, Werte und Aktivitäten zur Einleitung eines Paradigmen- 

wechsels in Bezug auf FDM innerhalb des Wissenschaftssystems formuliert: 

- Vermittlung und Verankerung der Vorteile des FDM und Data Sharings in den 
wissenschaftlichen Communities. 

- Entwicklung eines funktionierenden Belohnungs- und Anreizsystems für ein 
besseres FAIR-Datenmanagement. 

- Gemeinsame Unterstützung und Umsetzung der FAIR Prinzipien für For- 
schungsdaten, Algorithmen, Prozesse, Software, etc. 

- Verhinderung weiterer Fragmentierung der Forschungsdatenlandschaft und 
Förderung von Aktivitäten zur aktiven Föderierung. 

- Zusammenarbeit zur Sicherung der technischen Kompatibilität von FDM-Tools. 

- Vernetzung und Sichtbarkeit durch das GO FAIR-Büro: Arbeitsgruppentreffen, 
regelmäßige Workshops, Unterstützung bei 6ffentlichkeitswirksamen Doku- 
menten (Best-Practices, Ergebnisberichte). 

- Förderung von Open Science. 

- Förderung von Data Stewardship und der damit einhergehenden Interessenver- 
tretung. 

- Vermittlung von Best Practices zur Erstellung von Datenmanagementplänen 
und deren Umsetzung im Forschungsprojekt. 


Das übergeordnete Ziel der GO CHANGE-Säule besteht darin, Unterstützung und An- 
leitung zur Erreichung dieser Ziele bereitzustellen. Hierbei hat der Kulturwandel 
Vorrang, in dem Daten als eigenständige Forschungsleistung statt lediglich als Ne- 
benprodukt von Forschungsprojekten betrachtet werden. Um dies zu erreichen, 
muss die zumeist nicht standardisierte Datenverwaltung innerhalb von Forschungs- 
prozessen in ein professionelles und nachhaltiges FDM transformiert werden, wel- 
ches den Datenzugang zur Sekundärverwertung im Sinne der FAIR-Prinzipien erst 
ermöglicht. 

Im Prozess des Paradigmenwechsels spielen nicht nur Forschende und wissen- 
schaftliche Einrichtungen, sondern auch Förderorganisationen eine zentrale strate- 
gische Rolle. Da bei den Forschenden bisher keine intrinsische Motivation, weder 
zum FDM noch zum Data Sharing übergreifend zu erkennen ist, muss zunächst eine 
extrinsische Motivationsquelle geschaffen werden. Diese kann beispielsweise in 
Form finanzieller Unterstützung des FDM oder restriktiveren FDM-Anforderungen 
seitens der Forschungsförderer realisiert werden. Sobald sich ein Reputationsge- 
winn durch das Publizieren von Forschungsdaten durchgesetzt hat (bzw. das Zu- 
rückhalten von Daten zu einem Reputationsverlust führt), ist zu erwarten, dass sich 
die Motivation zum FDM und Data Sharing ausweiten und sich ein diesbezüglicher 
Kulturwandel dynamisiert. 
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6 Implementierungsnetzwerke in GO CHANGE 


Was sind die konkreten Themen, welche die IN innerhalb der Säule GO CHANGE bear- 
beiten? Um den kulturellen Wandel in Richtung FAIRes FDM voranzutreiben, setzen 
die IN meist an mehreren Hebeln an. Dabei überschneiden sie sich durchaus in den 
von ihnen geplanten Aktivitäten, was wiederum Synergiepotenzial birgt. Einen Über- 
blick über die verschiedenen Tätigkeitsbereiche und darin involvierten IN gibt Abb. 4. 

Als graue Kreise abgebildet sind in Abb. 4 die 15 aktiven IN, die sich zum Zeit- 
punkt des Verfassens dieses Artikels mit Herausforderungen des kulturellen Wan- 
dels beschäftigen. Von den grauen Kreisen gehen Pfeile ab, die jeweils eine Tätig- 
keit des IN beschreiben. Sie münden entweder in einen hellgrünen Kreis oder einen 
orangen Kreis. Hellgrüne Kreise kennzeichnen Themen, die von mehreren IN behan- 
delt werden. Bei den orangen Kreisen handelt es sich um Themen, die (bisher) nur 
von einem einzelnen IN bearbeitet werden. Im weiteren Verlauf dieses Unterkapitels 
wird auf die Schnittmengen nacheinander eingegangen und erläutert, wie diese von 
den IN bearbeitet werden. 


Bewusstsein für FAIR-Prinzipien 


Zehn IN haben es sich zur Aufgabe gemacht, ihre Communities für die FAIR-Prinzi- 
pien zu sensibilisieren. Das IN „EcoSoc“” beispielsweise, welches als Praxisbeispiel 
in Abschnitt 7 dieses Beitrags ausführlich vorgestellt wird, möchte besonders in den 
Wirtschafts- und Sozialwissenschaften ein Bewusstsein für das Teilen von For- 
schungsdaten schaffen, z.B. durch die Stärkung des Modells der Forschungsdaten- 
zentren. Ein ähnliches Ziel verfolgt NOMAD innerhalb der Materialwissenschaften. 
Dabei stellt sich die Frage, wie genau ein solches Bewusstsein unter Forschenden 
befördert werden kann. Welche Formate, Materialien und Angebote funktionieren 
in einer bestimmten Community oder auch disziplinübergreifend? Zu genau diesen 
Fragen veranstaltete das GO FAIR-Büro im Juni 2019 einen GO CHANGE Workshop, 
bei dem sich Mitglieder von bestehenden und interessierten IN über ihre Ansätze, 
Erfahrungen und Best Practices austauschen konnten. Ein Ergebnis des Workshops 
ist u.a. eine Sammlung von Awareness-Materialien, die nun in einer Datenbank auf- 
bereitet zur Nachnutzung zur Verfügung stehen.” Darüber hinaus wurde im Rah- 
men des Workshops das IN „GO UNI“ initiiert. GO UNI soll universitäre FDM-Kom- 
petenzzentren und im FDM-Kontext aktive Einrichtungen miteinander vernetzen, 
um Synergien bei der Umsetzung und Etablierung der FAIR-Prinzipien nutzen zu 
können. Vorrangiges Ziel ist eine gegenseitige Unterstützung zum Aufbau notwen- 
diger institutioneller Strukturen für ein professionelles FDM. 


32 S. https://www.go-fair.org/implementation-networks/overview/ecosoc-in/. 
33 S. https://www.go-fair.org/resources/more-on-fair. 
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Community Workshops 


Vier der IN stellen in ihren Manifesten heraus, dass sie spezielle Workshops durch- 
führen möchten, um die breitere Forschungsgemeinschaft rund um ihren Tatigkeits- 
bereich einzubeziehen. Das IN „CO-OPERAS“*” nutzte hierfür die Open Science Fair 
2019 in Porto als Plattform, um einen Workshop für die Forschungscommunity der 
Sozial- und Geisteswissenschaften anzubieten. Dabei befassten sie sich insbesonde- 
re mit der disziplinspezifischen Herausforderung der Mehrsprachigkeit bei der Um- 
setzung der FAIR-Prinzipen. 

Das IN „Go Inter“? wiederum arbeitet schwerpunktmäßig an der Realisierung 
semantischer Interoperabilität über Disziplingrenzen hinweg. Es plant Workshops 
mit Vertretenden verschiedener Disziplinen, aus denen sich seine Anwendungsfalle 
speisen. Bei der Organisation solcher Workshops können die IN auf die Unterstüt- 
zung des GO FAIR-Büros zurückgreifen, zum Beispiel in Form von Reisemittelzu- 
schüssen für die Teilnehmenden. 


Datensubjekte/Datenlieferanten 


In den Wandel hin zu einer FAIRen Datenkultur möchten drei IN auch Datensubjek- 
te miteinbeziehen, also diejenigen, von denen personenbezogene Daten erhoben 
werden. Sowohl im IN „Personal Health Train“, als auch bei „Rare Diseases“? 
geht es dabei um persönliche Gesundheitsdaten. „Personal Health Train“ möchte 
solche sensiblen Gesundheitsdaten mithilfe einer föderierten Infrastruktur sicher 
nachnutzbar machen. Dabei sollen Bürgerinnen und Bürger genau kontrollieren 
können, welche Daten sie für wissenschaftliche Analysen zur Verfügung stellen 
und welche nicht. 

Das IN „Rare Diseases“ möchte auf Grundlage FAIRer Daten schnellere Diagno- 
sen und bessere Behandlungsmöglichkeiten von seltenen Krankheiten erwirken. 
Wie genau die FAIR-Prinzipien in diesem Fall umgesetzt werden, sollen auch Pati- 
entenorganisationen mitbestimmen. Das GO FAIR-Büro unterstützt die IN bei der 
Einbindung solcher Interessensgruppen und hilft z.B. bei der zielgruppengerechten 
Formulierung von Informationsmaterialien. 


34 S. https://www.go-fair.org/implementation-networks/overview/co-operas/. 

35 S. https://www.go-fair.org/implementation-networks/overview/go-inter/. 

36 S. https://www.go-fair.org/implementation-networks/overview/personal-health-train/. 
37 S. https://www.go-fair.org/implementation-networks/overview/rare-diseases/. 
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Empfehlungen/Guidelines 


Praktische Empfehlungen und Guidelines zum FDM werden von drei IN erstellt und 
veröffentlicht. Das IN „Food Systems“ etwa möchte auf Empfehlungen von Ar- 
beitsgruppen der Research Data Alliance (RDA)*’, der Initiative Global Open Data 
for Agriculture and Nutrition’? und dem World Wide Web Consortium“! aufbauen 
und diese, wenn nötig, um spezifische Aspekte des FAIRen FDM in der Lebensmit- 
telsystemforschung erweitern. Bei der Produktion und Verbreitung entsprechender 
Dokumente ist das GO FAIR-Büro den IN behilflich. 


Daten-Policies 


Drei IN nehmen in ihrem Manifest Bezug auf Daten-Policies, also institutionelle Ver- 
haltensregeln für den Umgang mit Forschungsdaten. Das IN „FAIR StRePo“*? (kurz 
für „FAIR Standards, Repositories, and Policies“) steht in engem Zusammenhang 
mit der Plattform fairsharing.org,“? welche Daten-Policies unterschiedlichen Ur- 
sprungs (Forschungsförderer, Fachgesellschaften, Fachzeitschriften etc.) sammelt, 
systematisiert und zugänglich macht. Innerhalb der GO FAIR-Initiative möchte das 
IN „FAIR StRePo“ diejenigen Daten-Policies, welche durch andere IN erstellt werden 
oder auf deren Grundlage sie selber handeln, bekannter machen, indem sie diese 
auf fairsharing.org veröffentlicht. Formulierungshilfen zur Erstellung institutionel- 
ler Daten-Policies hat das GO FAIR-Büro in seiner Datenbank“ gesammelt. 


Konferenzen 


Ein Bewusstsein für FAIRes Datenmanagement möchten zwei IN ausdrücklich auf 
Konferenzen schaffen. Das IN „GAIA“®, das in der Erdsystemforschung verankert 
ist, nimmt hierfür insbesondere die großen internationalen Konferenzen ihrer For- 
schungscommunity ins Visier. Hier soll es in Bezug auf FAIR Data vor allem darum 
gehen, dass sich die internationale Forschungscommunity auf bestimmte Metada- 
tenstandards verständigt und diese Einigungen gesteigerte Aufmerksamkeit und 


38 S. https://www.go-fair.org/implementation-networks/overview/food-systems/. 
39 S. https://www.rd-alliance.org/. 

40 S. https://www.godan.info/. 

41 S. https://www.w3.org/. 

42 S. https://www.go-fair.org/implementation-networks/overview/fair-strepo/. 
43 S. https://fairsharing.org/. 

44 S. https://www.go-fair.org/resources/more-on-fair. 

45 S. https://www.go-fair.org/implementation-networks/overview/gaia-data/. 
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weitere Akzeptanz erhalten. Auf anstehende Konferenzbeiträge von IN weist das GO 
FAIR-Büro in einem alle zwei Monate erscheinenden Newsletter hin.*° 


Ressourcenübersicht 


Zwei IN planen, eine Übersicht über schon existierende Ressourcen im Zusammen- 
hang mit FAIRem FDM zu erstellen. Beim IN „Chemistry“ handelt es sich dabei 
z.B. um in der Chemie und ihren Teildisziplinen aufgesetzte Standards zur Benen- 
nung chemischer Stoffe. Diese möchte das IN sammeln und von „FAIR StRePo“ ku- 
ratieren lassen. Dem im Aufbau befindlichen IN „Season Schools“ wiederum geht es 
darum, ein Verzeichnis bestehender Schulungsprogramme zu FAIRem FDM inklusi- 
ve der dazugehörigen Trainerinnen bzw. Trainer und Organisationen zu erstellen. 
Die von den IN erstellten Übersichten lassen sich einfach in der vom GO FAIR-Büro 
aufgesetzten Datenbank“® integrieren, so dass sie eine größere Reichweite erzielen. 


7 EcoSoc - FAIR-Prinzipien in den Wirtschafts-, 
Verhaltens,- und Sozialwissenschaften etablieren 


Das Economic and Social Sciences goINg FAIR Implementation Network (EcoSoc- 
IN)” ist das erste GO FAIR IN für die Sozial-, Verhaltens- und Wirtschaftswissen- 
schaften. EcoSoc-IN wurde im November 2018 auf Initiative des Rates für Sozial- 
und Wirtschaftsdaten (RatSWD)°° gegründet und basiert auf der langjährigen Exper- 
tise des RatSWD und der durch ihn akkreditierten Forschungsdatenzentren (FDZ).*! 
Der RatSWD berät seit 2004 die Bundes- und Landesregierungen bei der Verbesse- 
rung der Forschungsdateninfrastruktur für die Sozial-, Verhaltens- und Wirtschafts- 
wissenschaften. Nachweislich verbessert haben sich durch seine Bemühungen be- 
reits der Zugang zu sensitiven Forschungsdaten der amtlichen Statistik und amtli- 


46 Abonnement unter https://www.go-fair.org/newsletter-subscription. 

47 S. https://www.go-fair.org/implementation-networks/overview/chemistryin/. 
48 S. https://www.go-fair.org/resources/more-on-fair. 

49 S. https://www.go-fair.org/implementation-networks/overview/ecosoc-in/. 
50 S. https://www.ratswd.de/. 

51 S. https://www.ratswd.de/forschungsdaten/fdz. 


3.2 GO FAIR und GO CHANGE: Chancen für das deutsche Wissenschaftssystem —— 231 


chen Registern,” der Sozialversicherungsträger,? Ressortforschungseinrichtungen™ 
und wissenschaftlicher Forschungsinstitute die insbesondere die Daten der großen 
Umfragestudien” vorhalten.” Insgesamt haben sich mittlerweile (Stand Juni 2020) 
38 FDZ durch den RatSWD akkreditieren lassen (siehe Abb. 5) und garantieren da- 
mit mindestens einen Zugangsweg für die Nachnutzung der von ihnen kuratierten 
Forschungsdaten. Darüber hinaus entstehen in diesem Vernetzungskontext auch 
Repositoriumservices insbesondere für sensible Daten, die den angestrebten Daten- 
kulturwandel mit einer dafür notwendigen Infrastruktur unterlegen. 
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*Die Forschungdatenzentren Statistisches Bundesamt, Statistische Amter der Lander, GML, 
IZA, BA im IAB und RV waren bereits eingerichtet. 


Abb. 5: Die Entwicklung der vom RatSWD akkreditierten Forschungsdatenzentren 


Da Forschungsdaten in den Wirtschafts-, Verhaltens-, und Sozialwissenschaften — 
ähnlich wie in der klinischen oder epidemiologischen Forschung - in der Regel 
schützenswerte Informationen zu konkreten Personen, Unternehmen oder Institu- 
tionen enthalten, müssen die rechtlichen Bestimmungen zum Datenschutz und die 
Zusicherung der Vertraulichkeit eingehalten werden. Solche sensitiven Daten wer- 


52 insbesondere den statistischen Ämtern des Bundes und der Länder, Bundesbank, und Kraft- 
fahrtbundesamt. 

53 Deutsche Rentenversicherung Bund, Bundesagentur für Arbeit. 

54 z.B. Robert-Koch-Institut, Bundeszentrale für gesundheitliche Aufklärung, Bundesinstitut für 
Berufsbildung, Deutsches Zentrum für Altersfragen, Deutsches Jugendinstitut. 

55 z.B. Survey of Health, Ageing and Retirement, Sozioökonomisches Panel, Nationales Bildungs- 
panel, Internationale Umfrageprogramme wie European Social Survey. 

56 Vgl. Bug et al. 2018, 574-579; RatSWD 2019b, die URLs der FDZ sind abrufbar über: https:// 
www.ratswd.de/forschungsdaten/fdz. 
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den deshalb fiir das Teilen von Daten anonymisiert, indem Attribute vergröbert 
oder aus den Daten entfernt werden. Je stärker die Anonymisierung ist, desto besser 
sind die Teilnehmenden der Studien geschützt. Gleichzeitig wird das analytische 
Potenzial der Daten verringert. Werden zum Beispiel Informationen zum Wohnort 
der Teilnehmenden in einer Befragung entfernt, ist es, bei Fehlen weiterer perso- 
nenbezogener Informationen, praktisch nicht mehr möglich, die Person zu re-iden- 
tifizieren. Allerdings können auch keine Einflüsse des Wohnorts auf Einstellungen 
und Verhalten der Individuen untersucht werden. Im Fall von personenbezogenen 
und anderen vertraulichen Daten muss bei der Anonymisierung deshalb zwischen 
Schutzinteressen der Studienteilnehmenden und Interessen der Forschenden abge- 
wogen werden. Nicht alle Daten können als Open Data frei zur Verfügung gestellt 
werden. Vielmehr müssen die Zugangswege für Forschende dem Grad der Anonymi- 
sierung entsprechend ausgestaltet werden. Die FDZ leisten diesen Abwägungspro- 
zess und bemühen sich im Sinne des Konzepts der „intelligent openness“,°” den Zu- 
gang so offen wie möglich, aber so sicher wie nötig zu gestalten. Der Zugang zu For- 
schungsdaten - im Sinne der accessibility - ist folglich das Kernthema des RatSWD 
und die Kernkompetenz der FDZ. Mit der flächendeckenden Einführung von Digital 
Object Identifiers (DOI)** und einem umfassenden Nachweissystem für Forschungs- 
daten wurde auch die tibergreifende Suche nach Forschungsdaten innerhalb der 
FDZ in den vergangenen Jahren vereinfacht und die Auffindbarkeit der Daten ge- 
starkt. 
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Abb. 6: Kennzahlen des vom RatSWD akkreditierten Netzwerks aus damals 34 Forschungsdatenzen- 
tren im Jahr 2018 


57 Vgl. Royal Society 2012. 
58 S. https://www.doi.org/. 
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Von diesem Status quo aus entstand das Manifest des EcoSoc-IN im engen Aus- 
tausch mit den FDZ, da sie tiber die Expertise im Datenmanagement verfiigen und 
bereits eine große Nutzendenbasis haben (siehe Abb. 6). 

2017 wurde zunächst ein Vergleich der FAIR-Prinzipien mit dem bereits etablier- 
ten FDM der FDZ durchgeführt. Diese Evaluation hat gezeigt, dass viele Aspekte in 
der täglichen Praxis von einem Großteil der FDZ bereits umgesetzt werden, speziell 
bezüglich der Auffindbarkeit, Zugänglichkeit und Nachnutzbarkeit von Forschungs- 
daten. Hinsichtlich der Vereinheitlichung von Metadatenstandards, der Verbesse- 
rung der Interoperabilität von Daten und bei der Maschinenlesbarkeit besteht je- 
doch noch Handlungsbedarf, der gleichzeitig den unterschiedlichen disziplinären 
Anforderungen gerecht werden muss - eine große Herausforderung. 

Der konzeptionelle Rahmen der FAIR-Prinzipien bietet eine besonders geeignete 
Herangehensweise, um einerseits interdisziplinär gültige Prinzipien und anderer- 
seits disziplinspezifische Eigenheiten im FDM zu verbinden. Primäres Ziel von Eco- 
Soc-IN ist daher die weitere Verbreitung und spezifische Weiterentwicklung der 
FAIR-Prinzipien, so dass sie innerhalb der FDZ und darüber hinaus Anwendung fin- 
den. Dazu müssen die abstrakten Prinzipien für die Sozial-, Verhaltens- und Wirt- 
schaftswissenschaften ausformuliert werden und dabei die Eigenheiten der verwen- 
deten Datenarten und Objekttypen aufgegriffen werden Dies gilt insbesondere für 
die FAIR-Prinzipien, die nicht generisch technisch (d.h. Nutzung persistenter Iden- 
tifier, Schnittstellen für Metadaten, usw.) umgesetzt, sondern inhaltlich ausgefüllt 
werden müssen. Das betrifft z.B. Konventionen über angemessene Zugangsregeln 
(Access Policies) im Falle von nicht vollständig anonymisierten/anonymisierbaren 
Daten, aber auch Fragen der Metadatenqualität zur Erleichterung der Nachnutzung 
und Verbesserung der Interoperabilität. Dabei stehen vier Problemfelder im Vorder- 
grund: 

— FAIRer Zugang zu datenschutzrechtlich oder forschungsethisch sensiblen Daten: 
Da sensitive Daten nicht frei vertrieben werden können, wurden verschiedene 
Lösungswege entwickelt. Erstens werden faktisch anonymisierte Scientific Use 
Files auf Antrag und häufig nach Abschluss eines Nutzungsvertrages vertrie- 
ben. Zweitens wurden Gastwissenschaftsarbeitplätze in den FDZ für einen über- 
wachten Datenzugang eingerichtet. Drittens schließlich wurden Verfahren für 
eine kontrollierte Datenfernverarbeitung (ein sogenanntes Remote Access) ein- 
geführt (RatSWD 2019a). Es fehlt aber eine einheitliche Terminologie im Sinne 
eines formalen Protokolls, das Rechte und Pflichten von Datengebenden und 
Datennutzenden definiert (data access protocols). 

- Angleichung verwendeter Metadatenstandards: Dies ist ein wichtiger Schritt zur 
Datendokumentation und Definition verschiedener digitaler Objekttypen und 
erhöht sowohl die Nachnutzbarkeit als auch die Interoperabilität der Daten. 
Zwar existiert ein umfassender sozialwissenschaftlicher Metadatenstandard der 
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Data Documentation Initiative, nämlich DDI Lifecycle,” dieser wird in der Pra- 
xis jedoch noch nicht flächendeckend angewendet und es gibt sehr unter- 
schiedliche Dokumentationstiefen. Da die Dokumentation aufwendig ist, wer- 
den nicht für alle Studien alle Attribute (d.h. Variablen in den Datensätzen) 
nach DDI Standard dokumentiert, sondern z.B. lediglich die Fragebögen für die 
Nachnutzung zur Verfügung gestellt. 

—  Interoperabilitdt von Merkmalen: Vor allem in der Umfrageforschung werden be- 
stimmte Attribute (z.B. sozio-demographische Merkmale der Probanden) oft 
sehr unterschiedlich erhoben. Um Daten aus unterschiedlichen Quellen ge- 
winnbringend verknüpfen zu können, müssen sie interoperabel sein, indem On- 
tologien zur Harmonisierung (ex-post oder ex-ante) verwendet werden. Solche 
Ontologien wurden vor allem für die international vergleichende Forschung 
entwickelt (z.B. die International Standard Classification of Education®). Ziel 
ist die systematische Aufbereitung von Daten und die kontinuierliche Weiter- 
entwicklung solcher Klassifikationen für die Datenerhebung und -dokumentati- 
on. 

—  Maschinenlesbare (Meta-)Daten: Die Metadaten und der Datenzugang sind bis- 
her in der Regel für die Verwendung durch Menschen ausgelegt. Ein Kernele- 
ment der FAIR-Prinzipien liegt jedoch gerade in der Bereitstellung von Schnitt- 
stellen für die Verarbeitung von (Meta-)Daten durch Maschinen. Zwar können 
Ausschnitte der Metadaten auf Studienebene über standardisierte Schnittstellen 
(OAI-PMH) abgerufen werden. Metadaten zu den Attributen - also den Inhal- 
ten - der Studien liegen jedoch in der Regel nicht maschinenlesbar vor (z. B. lie- 
gen Fragebögen nur in PDF-Dateien vor). Auch der automatisierte Zugriff auf 
Daten stellt die absolute Ausnahme dar. 


Praktisch wird das EcoSoc-IN Minimalstandards für die Erfüllung der FAIR-Kriterien 
in den Wirtschafts-, Verhaltens-, und Sozialwissenschaften definieren und Vorstel- 
lungen dazu entwickeln, wie eine vollständig FAIR-konforme Forschungsdatenin- 
frastruktur aussehen kann. Um Insellösungen zu vermeiden, sollte diese Diskussion 
nicht auf den Kreis der FDZ, die vom RatSWD akkreditiert sind, begrenzt bleiben. 
Das Format der IN ermöglicht es, den Kreis über die FDZ hinaus national und inter- 
national zu erweitern. Deshalb ist eine Beteiligung am EcoSoc-IN für alle Organisa- 
tionen und Personen offen, die das Manifest mitzeichnen. Derzeit hat EcoSoc-IN 23 
Mitglieder, darunter 17 FDZ. Mit dem Deutschen Institut für Erwachsenenbildung 
(DIE)* hat sich ein erstes institutionelles Mitglied ohne direkte Anbindung zum 
RatSWD angeschlossen. 


59 S. https://ddialliance.org/Specification/. 
60 S. http://uis.unesco.org/en/topic/international-standard-classification-education-isced. 
61 S. https://www.die-bonn.de/default.aspx. 
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Darüber hinaus bietet die GO FAIR-Initiative die Möglichkeit über disziplinäre 
Grenzen hinweg vergleichbare Probleme zu diskutieren. Eine inhaltliche Nähe zwi- 
schen EcoSoc-In und einschlägigen Initiativen aus der Medizin ist dabei besonders 
relevant. Das IN „Personal Health Train“ beschäftigt sich beispielsweise mit sensiti- 
ven Patientendaten (s. Abschnitt 6). Zudem planen die beiden in der ersten Runde 
der NFDI Ausschreibung (s. Abschnitt 1) eingereichten Konsortien NFDI4Health und 
NFDI4Medicine‘ dem EcoSoc-In beizutreten, um gemeinsam Lösungen für Zugang 
und Interoperabilität von sensitiven Daten aus Kohorten- und Panelstudien zu ent- 
wickeln. Fragen der technischen Weiterentwicklung der Infrastruktur könnten mit 
den IN aus der Go BUILD Säule diskutiert werden (z.B. dem Go INTER IN). 

Angesichts der dynamischen Entwicklung der Forschungsdateninfrastrukturen 
bieten die FAIR-Prinzipien den Datenzentren folglich eine inhaltliche Orientierung 
bei der konzeptionellen und technischen Weiterentwicklung der eigenen Angebote. 
FAIR-konforme Infrastrukturen werden zur Bedingung für die Beteiligung an der 
EOSC und der NFDI und deshalb setzt die GO FAIR-Initiative mit GO CHANGE und 
der Umsetzung der FAIR-Prinzipien wichtige Impulse für die Zukunft. Dies erfordert 
ein offenes Forum für die Diskussion, wie die FAIR-Prinzipien in den Sozial-, Ver- 
haltens- und Wirtschaftswissenschaften umgesetzt werden sollen. Dazu stellt das 
EcoSoc-IN, aber auch alle anderen IN der GO FAIR Initiative aufgrund ihrer struktu- 
rellen Offenheit das geeignete Format dar. 


8 Ausblick: Angestrebte Auswirkungen von GO FAIR 
und GO CHANGE auf das deutsche Wissenschafts- 
system 


Science is moving towards a greater openness, in terms of not just data but also publications, 
computer code and workflows. Yet researchers who are learning to navigate the open-science 
arena face a thicket of thorny issues. 


Die GO FAIR-Initiative möchte alle Open Science-Stakeholder dabei unterstützen, 
das Dickicht der „Open-Science-Arena“ leichter zu durchdringen und langfristig 
wirkende FDM-Netzwerke aufzubauen. Die zahlreichen IN, die sich sehr zügig auf 
Initiative von GO FAIR hin gegründet haben, weisen auf einen solchen Unterstüt- 
zungsbedarf hin. Gleichzeitig zeigt die Gründung der IN, dass ein Paradigmenwech- 
sel bereits stattfindet, der FDM und Data Sharing langfristig zu einem Standard in 


62 S. https://www.dfg.de/download/pdf/foerderung/programme/nfdi/191212_nfdi_statistik_ant- 
ragseingang.pdf, Anhang Tabelle 4, 17 ff. 
63 Popkin 2019, 446. 
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der Wissenschaft etablieren wird. Innerhalb der wissenschaftlichen Communities 
sind disziplinübergreifend ein hoher Vernetzungsbedarf und eine große Bereitschaft 
zur Zusammenarbeit zu verzeichnen. Diese Bereitschaft erhöht die Akzeptanz von 
FDM bei den Forschenden und wird langfristig den Zugang zu Forschungsdaten er- 
leichtern. Das Potenzial eines professionellen FDM für Forschung, Wirtschaft und 
Gesellschaft wurde identifiziert und eine globale Bewegung Richtung Open Science 
& Data Sharing ist zu erkennen. Diese Bewegung spiegelt sich u.a. in der geplanten 
Implementierung nationaler und europäischer Forschungsdateninfrastrukturen 
(wie z.B. der NFDI oder der EOSC) deutlich wider. Und so steht die Relevanz von 
FDM auch auf der Agenda von Fördereinrichtungen, dem Bundesministerium für 
Bildung und Forschung, der Bundes- und den Landesregierungen sowie wissen- 
schaftlichen Institutionen. Deutschland kann punktuell auf hohe FDM-Expertisen, 
wie beispielsweise die DINI/nestor AG Forschungsdaten,™ den RatSWD und RfII, 
FDM-Kompetenzzentren an den Universitäten, Landesinitiativen,© etablierte FDM- 
Infrastrukturen etc. sowie auf entsprechend zahlreiche FDM-Aktivitäten blicken. 

Allerdings sind die Potenziale und auch karrierefördernden Aspekte eines pro- 
fessionellen FDM, Data Sharing und der Open Science Bewegung bisher noch nicht 
bis zu allen Forschenden und Leitungsebenen durchgedrungen. Bei den meisten 
Forschenden herrscht immer noch die stabile und im Wissenschaftssystem fest ver- 
ankerte Mentalität des Wettbewerbs und nicht der Kollaboration, was einer diszi- 
plinübergreifenden Zusammenarbeit und schlussendlich dem wissenschaftlichen 
Fortschritt im Wege steht. Forschende halten ihre Erhebungsdaten oftmals lieber 
unter Verschluss, damit ihre Kolleginnen und Kollegen diese nicht für eigene Veröf- 
fentlichungen und somit ihren Reputationsgewinn verwenden können.‘ Die GO 
FAIR-Initiative möchte insbesondere mit den Aktivitäten innerhalb des Handlungs- 
feldes GO CHANGE dafür Sorge tragen, dass Forschende dieses Misstrauen ablegen, 
Daten ordnungsgemäß zitiert werden und die Vorteile von Open Science und FDM 
in der Wissenschaft ankommen. 

Ein professionelles FDM ist längst noch kein fester Bestandteil der Forschungs- 
praxis innerhalb wissenschaftlicher Projekte geworden. Daher wäre es wünschens- 
wert, dass Forschende die niedrigschwelligen Angebote der GO FAIR-Initiative nut- 
zen, sich in IN auszutauschen und die Herausforderungen des FDM gemeinsam 
anzugehen. Die ersten Pioniere, wie etwa der RatSWD, haben dies bereits getan. 
Nun müssen weitere Forschungseinrichtungen und Initiativen nachziehen, so dass 


64 S. https://dini.de/ag/dininestor-ag-forschungsdaten/. 

65 S. z.B. Bw2FDM (https://bwfdm.scc.kit.edu/index.php); Digital Campus Bayern (https://www. 
stmwk.bayern.de/studenten/digitalisierung/hochschule-digitaler-campus.html); fdm.nrw (https:// 
www.fdm.nrw/); HeFDI (https://www.uni-marburg.de/de/hefdi). 

66 Popkin 2019, 445-446; s.a. Beitrag von Oßwald, Kap. 3.5 in diesem Praxishandbuch. 
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der Kulturwandel hin zu einem verantwortungsvollen FDM gelingt und die vorhan- 
denen Synergien sinnvoll genutzt werden. 

Letztendlich gehen die Ziele der GO FAIR-Initiative aber auch über die Grenzen 
des wissenschaftlichen Okosystems der Forschenden hinaus. Ein wichtiges Anlie- 
gen ist nämlich darüber hinaus, das Vertrauen der Bevölkerung in das Wissen- 
schaftssystem zu stärken oder gar verlorenes wieder zurückzugewinnen. Hierzu ist 
eine Offenlegung von Forschungsprozessen im größtmöglichen Umfang notwendig. 
Eine solche Transparenz entsteht, wenn nicht nur Forschungsergebnisse, sondern 
auch die dazugehörigen Forschungsdaten, Analyse-Syntaxen, Methodenreports etc. 
zur Verfügung gestellt werden. Erst ab dem Moment, in dem Forschungsergebnisse 
repliziert und überprüft werden können, handelt es sich streng genommen um Wis- 
senschaft. Open Science erleichtert in diesem Sinne die Qualitätssicherung inner- 
halb der Forschung und erhöht die Leistungsfähigkeit der Wissenschaft, wovon alle 
Beteiligten profitieren. 

Die praktische Anwendung von Open Science und die daraus folgende Transpa- 
renz fördert gesellschaftliches Vertrauen in die Wissenschaft und erhält auf Dauer 
ihre Glaubwürdigkeit. Schlussendlich rechtfertigt Open Science sogar ihren Fortbe- 
stand. 
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Kerstin Helbig 
3.3 Schulungs- und Beratungskonzepte 


Abstract: Die Schulung und Beratung zum Forschungsdatenmanagement umfasst 
viele Aufgaben und Personen. Dariiber hinaus sollen meist vordefinierte Ziele erfiillt 
werden, z. B. Information und Sensibilisierung, fach- sowie themenspezifische Bera- 
tung und Kompetenzvermittlung oder schlicht die Erfiillung von Férderanforderun- 
gen. Um diese Dienste nachhaltig, strukturiert und organisiert zu etablieren, ist die 
Entwicklung eines Konzepts sinnvoll, das die Personen, Ziele, Maßnahmen und In- 
formationsflüsse beschreibt. Der vorliegende Beitrag stellt die Inhalte und Entwick- 
lungsschritte eines Schulungs- und Beratungskonzepts vor und gibt Empfehlungen 
zur praktischen Umsetzung. 


1 Konzeptaufbau und -entwicklung 


Einer der wichtigsten, aber nicht immer ersten Schritte beim strategischen Aufbau 
von Dienstleistungen zum Forschungsdatenmanagement (FDM) ist die Entwicklung 
eines Schulungs- und Beratungskonzepts. Ein solches Konzeptdokument hilft allen 
Beteiligten dabei, die jeweiligen Verantwortlichkeiten und Aufgaben zu kennen. In- 
halte eines Schulungs- und Beratungskonzepts umfassen folgende Aspekte: 

- strategische Ziele 

- Zielgruppen 

- Beteiligte und Verantwortlichkeiten 

— Themen der Schulungen und Beratungen 

- Beratungsformate 

- Schulungsformate 

-  Öffentlichkeitsarbeit 

- spezifische Maßnahmen 


Ein Konzept entsteht in der Regel auf Grundlage eines konkreten Arbeitsauftrags 
durch die Leitungsebene. FDM umfasst allerdings viele Bereiche und Arbeitsgebiete. 
An der Entwicklung und Umsetzung des Konzepts sind folglich eine ganze Reihe 
von Personen beteiligt. Bei der Erarbeitung eines Schulungs- und Beratungskon- 
zepts sollten dementsprechend auch Wünsche oder Erfordernisse dieser involvier- 
ten Akteurinnen und Akteure ihre Berücksichtigung finden (Abb. 1). 


8 Open Access. © 2021 Kerstin Helbig, publiziert von De Gruyter. [Ea] Dieses Werk ist lizenziert unter der 
Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-014 
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Abb. 1: An der Konzeptentwicklung beteiligte Akteurinnen und Akteure am Beispiel einer Universitat 


Allen voran ist hier die Gruppe der Forschenden zu nennen. Sie haben ein starkes In- 
teresse daran, das Serviceangebot mit zu beeinflussen, können aber möglicherweise 
nur indirekt darauf einwirken. Die Leitungsebene hat meist ebenfalls konkrete Vor- 
stellungen, die eingearbeitet werden müssen. Zusätzlich wirken die Anforderungen 
der Forschungsförderer und Verlage sowie ggf. der Hochschulpolitik auf die Entwick- 
lung des Konzepts ein, da sie Beratungs- und Schulungsthemen unter Umständen 
vorgeben. Zukünftig werden darüber hinaus die Services und Aktivitäten der Fach- 
konsortien im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) sowie 
der FDM-Landesinitiativen die Konzipierung institutionseigener Schulungs- und Be- 
ratungsmaßnahmen beeinflussen.! Folglich ergeben sich sowohl Top-down- (Lei- 
tungsebene) und Bottom-up-Anforderungen (Wissenschaftsebene) als auch Randbe- 
dingungen (externe Einflüsse), die bei der Konzipierung mit zu berücksichtigen sind. 

Um ein Konzept strukturiert und umfassend zu erstellen, sind verschiedene 
Analyseschritte notwendig. Vorhandene und notwendige Ressourcen müssen be- 
stimmt sowie Ziele und Maßnahmen definiert werden. Die methodische Herange- 
hensweise kann je nach Aspekt variieren. So ist z.B. für die Bestimmung von betei- 
ligten Akteurinnen und Akteuren eine Stakeholderanalyse und für die Themenwahl 
die Erstellung einer Mindmap als hilfreich zu nennen. In den nachfolgenden Ab- 
schnitten wird auf die jeweiligen Bestandteile des Konzepts detailliert eingegangen. 
Vorschläge zur praktischen Analyse und Umsetzung ergänzen diese. 


1 S. Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Herausforderungen im For- 
schungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 
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Das Konzept sollte in regelmäßigen Abständen - bspw. jährlich sowie anlassbe- 
zogen nach Änderungen externer oder interner Anforderungen - evaluiert und auf 
seine Aktualität und Passgenauigkeit geprüft werden. Dabei sind insbesondere die 
Erfüllung der zuvor definierten spezifischen Ziele und deren Wirkung von Relevanz. 


2 Strategische Ziele 


Das Konzept zur Beratung und Schulung soll eine bestimmte Wirkung bei der Ziel- 
gruppe erzielen. Hierzu sind zunächst strategische Ziele zu bestimmen, die durch 
das Konzept erreicht werden sollen. Diese Ziele sollten nicht kleinteilig, sondern 
möglichst grob definiert werden. Die Formulierung von sogenannten Richtzielen 
hilft dabei, die nachfolgenden Aspekte wie z.B. Zielgruppe und Themen leichter zu 
bestimmen. Ein solches Richtziel kann unter anderem eine verbesserte Sichtbarkeit 
des Themas sein. Weitere Beispiele für Richtziele können Vernetzung, Informations- 
vermittlung oder Aufbau von Tools und Services sein. 

Die Definition und Priorisierung der strategischen Ziele kann durch unter- 
schiedliche Maßnahmen erleichtert werden. Unter anderem ist eine Bestandsauf- 
nahme des Status Quo im FDM ein guter erster Schritt zur Klärung und Diskussions- 
grundlage. Tools wie RISE-DE? können bei der Selbstevaluation und Zieldefinierung 
unterstützen. Des Weiteren haben einige Hochschulen ihre strategischen Ziele 
durch die Durchführung von Umfragen und Interviews innerhalb der Zielgruppe 
festgelegt.’ Die Wünsche und Erwartungen im Bereich Beratung und Schulung kön- 
nen so forschungsnah geklärt werden. Jedoch ist der Aufwand der Durchführung 
und Auswertung im Vergleich zu anderen methodischen Herangehensweisen sehr 
hoch. 


3 Zielgruppen 


Im zweiten Schritt ist zu bestimmen, welche Personen geschult oder beraten werden 
sollen.“ Dies erleichtert die nachfolgende Wahl von adäquaten Themen und die Be- 
stimmung von passenden Schulungs- und Beratungsformaten. Des Weiteren wird 
hierbei deutlich, welche Stakeholder ggf. mit in die Planung einbezogen werden 
müssen. Abb. 2 zeigt beispielhaft relevante Zielgruppen für Schulungs- und Bera- 
tungsangebote an Hochschulen sowie deren Proportionalität zueinander. 


2 Vgl. Hartmann, Jacob und Weiß 2019. 
3 Vgl. Universität Konstanz 2020c. 
4 Vgl. Helbig und Aust 2017, 110-113. 
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Professorinnen und 
Professoren 
Promovierende 


Wissenschaftliche 
Mitarbeitende 


Studierende 


Abb. 2: Zielgruppen eines Schulungs- und Beratungskonzepts zum FDM am Beispiel einer Universi- 
tat 


Je nach Art der Institution können bestimmte Gruppen wegfallen oder eine stärkere 
Bedeutung haben. Ebenso können andere Gruppen hinzukommen, wie z.B. wissen- 
schaftsunterstützendes Personal, das in Inhouse-Schulungen weitergebildet werden 
muss. Es ist daher genau zu prüfen, wer - in Abstimmung mit den zuvor festgeleg- 
ten strategischen Zielen — mit den Maßnahmen vornehmlich erreicht werden soll. 

Darüber hinaus kann es sinnvoll sein, sich zunächst auf eine bestimmte Ziel- 
gruppe zu fokussieren und erst nach einer Etablierungsphase der Services weitere 
Personen in den Blick zu nehmen. Eine Priorisierung ist daher ratsam. 


4 Beteiligte und Verantwortlichkeiten 


Neben der Zielgruppe sind noch weitere Personen und Einrichtungen für die Ent- 
wicklung des Beratungs- und Schulungskonzepts von Relevanz. Diese Stakeholder 
können für die Priorisierung der Schulungs- und Beratungsformate von Bedeutung 
sein. Des Weiteren sind sie ggf. an der Durchführung der Serviceangebote beteiligt 
und daher mit zu berücksichtigen. 

Um relevante Akteurinnen und Akteure zu bestimmen, sollte eine Stakeholder- 
analyse’ durchgeführt werden. Diese hilft insbesondere dabei, Personen zu identifi- 
zieren, die möglicherweise nur am Rand beteiligt sind und unter Umständen über- 
sehen worden wären. Dierkes, Helbig und Neumann unterscheiden zwischen drei 
Gruppen von Stakeholdern.° Zur leichteren Strukturierung trennen sie zwischen in- 
haltlich Beteiligten, Informationsmultiplikatoren und weiteren Beteiligten. Auf Ba- 


5 Vgl. Krips 2017, 11-34. 
6 Vgl. Dierkes, Helbig und Neumann 2018, 4. 
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sis dieses Schemas zeigt Abb. 3 eine beispielhafte Stakeholderanalyse fiir die Hum- 
boldt-Universitat zu Berlin. 


Universitatsleitung 


Vizepäsident für 
Forschung 


Stakeholder im 
Forschungs- 
daten- 
management 


Abb. 3: Stakeholderanalyse am Beispiel der Humboldt-Universität zu Berlin (inhaltlich Beteiligte 
(grau), Informationsmultiplikatoren (dunkelgrau/schraffiert) und weitere Beteiligte (weiß)) 


Wenn die beteiligten Personen ermittelt sind, sollte deren Einfluss bewertet werden. 
Dies unterstützt dabei, wichtige von zweitrangigen Stakeholdern zu trennen sowie 
Akteurinnen und Akteure mit größerem Einfluss verstärkt zu berücksichtigen. 

Nach der Analyse der Stakeholder ist es empfehlenswert, die Verantwortlichkei- 
ten der jeweiligen Personen mit diesen zu diskutieren und gemeinsam festzulegen.’ 


7 Vgl. Künkel, Gerlach und Frieg 2019, 11. 
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Als Ergebnis dieses Dialogs sollten die Stakeholder mit ihren jeweiligen Beteiligun- 
gen und Schwerpunkten im Konzept benannt werden. Dies schafft Klarheit fiir alle 
Beteiligten. Nicht alle Aktivitaten, die die Beratung und Schulung zum FDM betref- 
fen, können und sollen durch eine zentrale Kontaktstelle geleistet werden. Beispiele 
hierfür sind rechtliche Beratung, die Beantragung und Einweisung in ein spezielles 
Datenverarbeitungstool oder fachspezifische Dokumentationsdetails. Es ist daher 
sinnvoll, sich diesen verteilten Verantwortlichkeiten bewusst zu sein und die Stake- 
holder aktiv darauf hinzuweisen. 


5 Themen der Schulungen und Beratungen 


Je nach Zielgruppe® stehen unterschiedliche Themen im Fokus. Inhalte von Bera- 
tungen und Schulungen beziehen sich dabei in der Regel auf den gesamten For- 
schungsdatenlebenszyklus’. 


Ordnung und Strukturierung von 


Einführung in die Thematik En 


Dokumentation und Metadaten 


| 


Fachspezifisches 


Datenpublikation Datensicherheit und Ethik 
Datenmanagement 


Datenmanagementplan Rechtliche Rahmenbedingungen FDM lehren 


Abb. 4: Mögliche Themen von Beratungs- und Schulungsformaten nach Zielgruppe 


Abb. 4 zeigt Themen, die mit Beratungen und Schulungen in der jeweiligen Gruppe 
adressiert werden könnten. Corti et al. fassen diese Themen strukturiert zusammen 
und erläutern anhand von Beispielen und praktischen Übungen deren Bedeutung.” 


8 S. Abschnitt 3. 
9 Vgl. UK Data Service 2019. 
10 Vgl. Corti et al. 2014. 
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Eine Einführung in alle Bereiche des FDM bietet ebenso das Train-the-Trainer-Kon- 
zept zum FDM von Biernacka et al." 

Viele Themen eignen sich für mehrere Zielgruppen. Es ist daher sinnvoll sich 
zunächst einen Überblick über die zu adressierenden Zielgruppen sowie deren Be- 
dürfnisse zu verschaffen.” Eine Mindmap kann hier helfen, um alle möglichen 
denkbaren Themen zu bestimmen. Dies erleichtert gleichermaßen die Erfassung 
von Schnittmengen. 

Der Themenzuschnitt sollte vor der Erstellung von separaten Schulungs- und 
Beratungskonzepten sowie Materialien erneut geprüft werden. Wichtiges ist von Un- 
wichtigem zu trennen, um Themen erfolgreich abzugrenzen. Dies umfasst ebenso 
die Schwerpunktsetzung und Entfernung irrelevanter Informationen. 


6 Beratungsformate 


Die Beratung der Zielgruppe kann sowohl direkte als auch indirekte Informations- 
wege umfassen. Die Etablierung einer Informationswebseite ist ein wichtiger 
Schritt, um Angehörige der eigenen Institution auf die Existenz einer Kontaktstelle 
hinzuweisen. Gleichzeitig bietet eine solche Webseite die Möglichkeit, konkrete In- 
formationsangebote sowie Beratungs- und Serviceleistungen zu definieren und der 
Zielgruppe zu kommunizieren. Die Detailtiefe der Informationen ist abhängig von 
der Zielgruppe und den zuvor definierten Zielen. Generische Informationen können 
z.B. durch eine Textübernahme bzw. Verlinkung auf die deutschlandweite Informa- 
tionswebseite forschungsdaten.info” vermittelt werden. Die dort zur Verfügung 
gestellten Texte stehen unter einer freien Lizenz und können unproblematisch 
nachgenutzt werden. Dabei ist jedoch immer eine Anpassung an die Zielgruppe zu 
prüfen. Wichtig ist an dieser Stelle insbesondere, dass die Zielgruppe institutions- 
spezifische Informationen erhält, z.B. zu Serviceleistungen wie Speicherung, Archi- 
vierung und Datenpublikation. Die Forschungsdaten-Policy der Einrichtung hat 
meist ebenfalls auf der Informationswebseite seinen Platz. 

Analog zu den in Abschnitt 5 definierten Themen erfolgt auch die Beratung in 
diesen Bereichen. Hierfür ist eine entsprechende Expertise innerhalb der Kontakt- 
stelle notwendig. Alternativ können Expertinnen und Experten mit einschlägigen 
Kenntnissen hinzugezogen werden.” Insbesondere bei fachspezifischer oder rechtli- 
cher Beratung kann die Kontaktstelle in der Regel nicht allein beratend tätig wer- 
den. Die Kooperation mit Personen wie den Datenschutzbeauftragten oder den 


11 Vgl. Biernacka et al. 2020. 

12 S. Abschnitt 2 und Abschnitt 3. 
13 Vgl. Universität Konstanz 2020a. 
14 S. Abschnitt 4. 
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Fachreferentinnen und Fachreferenten der Bibliothek ist hier beispielhaft zu nen- 
nen. 

Darüber hinaus sollten Kontaktmöglichkeiten auf der Informationswebseite ge- 
nannt werden. Eine zentrale E-Mail-Adresse wie forschungsdaten@]...].de ermög- 
licht es den Angehörigen der Institution unabhängig von Servicezeiten ihre Fragen 
zu stellen. Neben diesem Online-Angebot sollten aber auch Offline-Kontaktmöglich- 
keiten bestehen. Selbst wenn detaillierte Informationen auf einer Webseite zur Ver- 
fügung gestellt werden, wird eine persönliche Beratung von einigen Forschenden 
präferiert bzw. kann zielführender sein. Dies kann sowohl telefonisch als auch in 
einem persönlichen Gespräch erfolgen. Mehrere Beratungstermine und -formate 
sind insbesondere bei der Planung des FDM für umfangreichere Projekte üblich. 
Darüber hinaus können kleinere Arbeitsgruppen und Projektteams in Form einer In- 
house-Veranstaltung beraten werden. Der Übergang in eine Schulung kann hierbei 
fließend sein. 


7 Schulungsformate 


Im Gegensatz zur reinen Information werden in einer Schulung in der Regel zusätz- 
lich Kompetenzen vermittelt. Unterschiedliche Formate zur Vermittlung der Inhalte 
und Fähigkeiten sind dabei denkbar. So sollte in Abhängigkeit von Zielgruppe und 
verfügbarer Zeit eine jeweils passende Vermittlungsform gewählt werden. Sowohl 
Online- als auch Offline-Formate sind dabei denkbar. Diese umfassen beispielswei- 
se: 

-  Eins-zu-Eins-Schulung 

-  Gruppenschulung 

- Coffee Lecture 

-  Informationsveranstaltung/Vortrag 

- Integrierte Schulung innerhalb der Lehre 

— Workshop 

— Webinar 

— Massive Open Online Course (MOOC) 

-  Online-Tutorial 

- Podcast 

-  Train-the-Trainer 


Bei der Konzipierung von Schulungen sind verschiedene Aspekte zu berücksichti- 
gen. Der Umfang einer Veranstaltung ist von der Zielgruppe” und dem zu vermit- 


15 S. Abschnitt 3. 
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telnden Thema” abhängig. Schulungen und Workshops zum FDM werden in der Re- 
gel mit einem zeitlichen Umfang von 90 bis 180 Minuten angeboten. Informations- 
veranstaltungen, Coffee Lectures und Webinare sind meist ktirzer (30 bis 60 Minu- 
ten). Train-the-Trainer-Veranstaltungen benötigen aufgrund des umfangreichen In- 
halts und der zu vermittelnden Kenntnisse mehrere Tage. So eine erhebliche 
Zeitinvestition ist nicht fiir jede Person bzw. Zielgruppe von Interesse. 

Entscheidend ist darüber hinaus, ob Wissen oder Kompetenzen vermittelt wer- 
den sollen. Je nachdem ob Teilnehmende Informationen nur kennen sollen oder 
Kompetenzen auch anwenden müssen, variieren der Detailgrad, der Umfang und 
die Struktur der Veranstaltung. Für den Kompetenzerwerb und die Übertragung in 
den Alltag muss zusätzliche Zeit eingeplant werden. Praktische Übungen, Gruppen- 
arbeiten und Möglichkeiten zur Diskussion erleichtern die Rezeption von theoreti- 
schen Inhalten, bedürfen aber gleichzeitig auch einer flexibleren Schulungsfüh- 
rung. Ein Ablaufplan mit detaillierten Informationen zu Zeitumfang, Inhalt und für 
die Schulung benötigten Materialien erleichtert hierbei die Planung und Durchfüh- 
rung.” 

Bei der Erstellung von Schulungsmaterialien kann auf eine ganze Reihe an be- 
reits existierenden Ressourcen zur Orientierung und Nachnutzung zurückgegriffen 
werden. Insbesondere im englischsprachigen Raum gibt es zahlreiche Material- 
sammlungen zu unterschiedlichen Themen des FDM. Beispielhaft zu nennen ist das 
Data Management Training (DMT) Clearinghouse’ sowie die Zenodo-Community 
Research data management (RDM) open training materials'”. Im Rahmen der Rese- 
arch Data Alliance Interest Group „Education and Training on handling of research 
data“ werden international Kompetenzstandards und Referenzcurricula entwi- 
ckelt.?° Die DINI/nestor-AG Forschungsdaten engagiert sich darüber hinaus in einer 
eigenen Unter-Arbeitsgruppe” für die Sammlung und Entwicklung von deutsch- 
sprachigen Schulungsmaterialien. 

Des Weiteren ist zu beachten, dass einige Schulungsformate bestimmte Rah- 
menbedingungen erfordern. Beispielsweise setzt ein Webinar oder Online-Tutorial 
voraus, dass entsprechende Technik und Kenntnisse zur Verfügung stehen. Der in- 
itiale Aufwand ist bei Online-Tutorials ebenfalls höher, da Inhalte oder Gestaltung 
im Nachgang nur unter großem Aufwand veränderbar sind. Webinare oder Präsenz- 
veranstaltungen bieten hier mehr Flexibilität und Gestaltungsfreiheit. Hinzu 
kommt, dass auf Fragen und Diskussionen der Teilnehmenden direkter eingegan- 
gen werden kann, wohingegen Online-Tutorials meist passiv rezipiert werden und 


16 S. Abschnitt 5. 

17 Vgl. Biernacka et al. 2020, 160-163. 

18 Vgl. Earth Science Information Partners 2020. 
19 Vgl. Molloy 2020. 

20 Vgl. Research Data Alliance 2020. 

21 Vgl. Universität Konstanz 2020b. 
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nur wenig Interaktion bieten. Vor allem unerfahrene Trainerinnen und Trainer soll- 
ten ein Schulungsformat wählen, das noch viel Veränderungspotenzial bietet. Riick- 
schläge, wie z.B. geringe Teilnehmendenzahlen oder Resonanz in der Zielgruppe, 
sind zu erwarten und sollten hierbei nicht entmutigen. 


8 Öffentlichkeitsarbeit 


In der Regel reicht die bloße Einführung eines neuen Beratungs- oder Schulungsan- 
gebots nicht aus, damit die Zielgruppe davon erfährt und daran teilnimmt. Vielmehr 
ist zusätzlich ein umfassendes Konzept zur Öffentlichkeitsarbeit notwendig. Um 
Personen auf die Angebote aufmerksam zu machen, können viele Wege zum Ziel 
führen. Beispielhaft zu nennen sind dabei: 

- persönliche Ansprache 

- Besuch von Gremien- oder Abteilungssitzungen 

— Aufbau eines Netzwerks von thematisch Interessierten 

— E-Mail, Newsletter 

-  Mitarbeitenden-/Universitatszeitung 

- Intranet 

— Webseite 

- Flyer, Postkarten, Poster 

- Social Media 


Offentlichkeitsarbeit kann sowohl aus direkten als auch indirekten Kommunikati- 
onswegen bestehen.” Direkte Elemente umfassen die persönliche Ansprache, die 
Sensibilisierung von Institutionsangehörigen innerhalb von Abteilungs- oder Gremi- 
ensitzungen und den Aufbau eines Netzwerks am Standort. 

Indirekte Kommunikationswege sind dagegen Beiträge in Newslettern, der Mit- 
arbeitendenzeitung oder im Internet bzw. Intranet. Auch die Bewerbung von Ser- 
vices über Printmedien findet durch indirekte Kommunikation mit der Zielgruppe 
statt. Eine Reihe von Einrichtungen hat hierzu Materialien zur Nachnutzung bereit- 
gestellt.” 

Darüber hinaus können Anreizmechanismen wie die Verleihung eines Open- 
Data-Preises oder die Auswahl und Präsentation von Vorbildern für gutes Datenma- 
nagement, sogenannte „Data Champions“, sinnvoll sein, um das Interesse der 
Zielgruppe auf die angebotenen Beratungs- und Schulungsmaßnahmen zu lenken. 


22 Vgl. Dierkes, Helbig und Neumann 2018, 3. 

23 Vgl. u.a. Landesinitiative NFDI der Digitalen Hochschule NRW und AG FDM Awareness 2019; 
Biernacka et al. 2019; Biernacka, Dolzycka und Buchholz 2018; Dolzycka et al. 2018. 

24 Vgl. Higman, Teperek und Kingsley 2017, 97. 
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Dies kann die Motivation und das Engagement der Zielgruppe, sich mit dem Thema 
FDM auseinanderzusetzen, fordern. 


9 Spezifische Maßnahmen 


Abschließend sollten kurz-, mittel- oder langfristig messbare Ziele definiert und im 

Konzept schriftlich fixiert werden. Diese helfen dabei, den Fortschritt kontinuierlich 

überprüfbar zu machen. Hierzu sollten Ziele möglichst S.M.A.R.T.” formuliert wer- 

den, d.h. konkret, realistisch und messbar sein sowie einen festen Stichtag enthal- 

ten. Beispiele hierfür könnten sein: 

- Einführung eines zielgruppenspezifischen Schulungsangebots für Promovieren- 
de bis zum Ende des Kalenderjahres 

- Erstellung einer FDM-Informationswebseite im ersten Quartal 2020 

— Aufbau eines Netzwerks von FDM-Interessierten am Standort bis zum Anfang 
des Sommersemesters 2022 


Diese spezifischen Maßnahmen sollten den definierten Konzeptaspekten aus den 
Abschnitten 3 bis 8 entsprechen. S.M.A.R.T. formulierte Ziele unterstützen darüber 
hinaus bei der späteren Aktualisierung des Dokuments, da sie die Umsetzung des 
Schulungs- und Beratungskonzepts messbar machen. Bereits erreichte Ziele können 
dabei von noch verbleibenden Desideraten unterschieden werden. 

Das intendierte Ergebnis der S.M.A.R.T. formulierten Ziele ist die beabsichtigte 
Wirkung, welche idealerweise mit den in Abschnitt 2 beschriebenen strategischen 
Zielen korrespondiert. Diese werden hierdurch in konkrete Einzelmaßnahmen her- 
untergebrochen. Die drei vorgenannten Ziele entsprechen z.B. den Richtzielen Kom- 
petenzvermittlung, Informationsvermittlung und Vernetzung. 


10 Praxistransfer 


Die nachfolgende tabellarische Übersicht (Tab. 1) informiert über die jeweiligen 
Konzeptabschnitte und deren Inhalt. Darüber hinaus werden Vorschläge zur metho- 
dischen Herangehensweise gemacht. Dies soll den Praxistransfer erleichtern. 


25 S.M.A.R.T. steht für spezifisch, messbar, attraktiv, realistisch und terminiert, vgl. Locke und 
Latham 1990. 
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Tab. 1: Tabellarische Ubersicht zu Aspekten, Inhalt und methodischer Herangehensweise bei der 
Erstellung eines Schulungs- und Beratungskonzepts zum Forschungsdatenmanagement 


Konzeptaspekt 
Strategische Ziele 


Inhalt 


Beabsichtigte Wirkung der im 
nachfolgenden Konzept bes- 
chriebenen Aspekte und 
Maßnahmen 


Methodische Herangehensweise 


Formulierung von Richtzielen 


Zielgruppe 


Bestimmung der zu beraten- 
den/schulenden Personen 


Zielgruppenanalyse 


Beteiligte und Verantwortlich- 
keiten 


Bestimmung aller Akteurinnen 
und Akteure, die in die Bera- 
tung und Schulung zum FDM in- 
volviert sind sowie deren Betei- 
ligung 


Stakeholderanalyse 


Themen der Schulungen und Inhalt, den es zu vermitteln gilt Mindmap 
Beratungen 
Beratungsformate Wege der Informationsvermit- Beratungskonzept 


tlung zum FDM 


Schulungsformate 


Beschreibung der Kompetenz- 
vermittlung zum FDM 


Schulungskonzept mit jeweiligen 
Zielgruppen, groben Themen und 
geplanten Formaten 


Öffentlichkeitsarbeit 


Spezifische Maßnahmen 


Bewerbung der FDM-Aktivitäten 
und -Services 


Formulierung von konkreten 
Maßnahmen mit festgelegten 
Prüfterminen 


Konzept für die Öffentlichkeitsar- 
beit 


S.M.A.R.T. formulierte Ziele 


Schulungs- und Beratungskonzepte sind in der Regel institutionsinterne Dokumen- 
te. Dennoch wurden eine Reihe von praktischen Konzept-Beispielen und Best-Prac- 
tice-Berichten veröffentlicht, die der Orientierung dienen können: 


ver” 
Campus” 


zu Köln” 


26 Vgl. Strauch 2019. 
27 Vgl. Neumann 2018. 
28 Vgl. Dierkes 2018. 


29 Vgl. Dierkes und Curdt 2018. 


Forschungsdatenmanagement an der Stiftung Universität Hildesheim” 
Konzept zum Forschungsdatenmanagement an der Leibniz Universität Hanno- 


Die Göttingen eResearch Alliance. Outreach und Schulungen am Göttingen 


Von der Idee zum Konzept - Forschungsdatenmanagement an der Universität 
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- Konzept Forschungsdatenmanagement” der Physikalisch-Technischen Bundes- 
anstalt 

— Organisatorisch-technisches Konzept für eine Forschungsdaten-Infrastruktur in 
der TU Berlin?! 


Um den Lernerfolg zu prüfen, können die nachfolgenden Fragen zum Verständnis 

des Kapitels beantwortet werden: 

— Welche Elemente hat ein Beratungs- und Schulungskonzept? 

- Warun ist die Bestimmung der Zielgruppe wichtig? 

— Wie kann man Stakeholder unterscheiden? 

- Welche Faktoren spielen bei der Konzeption von Schulungen eine wichtige Rol- 
le? 

- Welche Kommunikationswege unterscheidet man bei der Offentlichkeitsarbeit? 


Fazit 


Die Erarbeitung eines Schulungs- und Beratungskonzepts erfordert viel Zeit, den 
Einsatz verschiedener Analysemethoden und die Kommunikation mit einer ganzen 
Reihe an Akteurinnen und Akteuren. Dennoch lohnt sich die Investition, da das Er- 
gebnis zu einem strategischen, strukturierten und nachhaltigen Aufbau von Bera- 
tungs- und Schulungsmaßnahmen führt. Insbesondere die Klärung von personellen 
Ressourcen und Verantwortlichkeiten, aber auch die Priorisierung von Zielen, Auf- 
gaben und Themen erleichtert den Einstieg in Beratungs- und Schulungsangebote 
für das Forschungsdatenmanagement. 
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3.4 Aus- und Weiterbildung fiir das 
Forschungsdatenmanagement in 
Deutschland 


Abstract: Der vorliegende Beitrag gibt einen Überblick über Aus- und Weiterbil- 
dungsmöglichkeiten im Bereich des wissenschaftlichen Forschungsdatenmanage- 
ments (FDM) in Deutschland. Sowohl internationale als auch nationale Koordinie- 
rungsmaßnahmen für das FDM wie die European Open Science Cloud und die Na- 
tionale Forschungsdateninfrastruktur erfordern gut qualifiziertes Personal. Jedoch 
befinden sich sowohl Rollen- als auch Berufsbilder noch in der Entwicklung und es 
besteht die Herausforderung, Kompetenzbereiche entsprechend zu definieren. 

Grundlage für ein gutes FDM ist ein hohes Maß an Datenkompetenz (Data Liter- 
acy), die zu einem kritischen und lösungsorientierten Umgang befähigt. Hierzu wer- 
den beispielsweise vom Stifterverband Projekte für Qualifizierungsmaßnahmen ge- 
fördert. Kompetenzbereiche und entsprechende Profile werden auf internationaler 
Ebene ausgearbeitet - in Deutschland gibt es bislang keine klaren Bezeichnungen 
und Kompetenzanforderungen. 

Bestehende Qualifizierungsmaßnahmen lassen sich in grundständige und wei- 
terbildende Studiengänge sowie in Fort- und Weiterbildungen wie Workshops oder 
Lehrgänge unterteilen. Innerhalb von Studiengängen werden bislang vorwiegend 
im Bereich der Informationswissenschaft Fähigkeiten vermittelt. Insbesondere für 
fachspezifische Qualifizierungsmaßnahmen bieten sich Fort- und Weiterbildungen 
an. An dieser Stelle ist die exakte Definition der Zielgruppe von Qualifizierungsan- 
sätzen sowie die daraus abgeleiteten benötigten Kenntnisse weiterhin eine große 
Herausforderung. 

Eine gemeinsame Qualifizierungsstrategie fehlt bislang in Deutschland. Zukünf- 
tig könnten neben der Ausarbeitung von Rollen- und Kompetenzbereichen sowie 
Berufsbezeichnungen und Karrierewegen auch gemeinsam abgestimmte Qualifizie- 
rungsangebote, beispielsweise durch Qualifizierungsallianzen dazu beitragen, das 
Forschungsdatenmanagement systematisch und nachhaltig im deutschen Wissen- 
schaftsbetrieb zu verankern. 


Einleitung 


Durch die Initiative European Open Science Cloud (EOSC) wird eine nachhaltige ge- 
meinsame europäische Infrastruktur mit vernetzten, standardisierten und so offen 
wie möglich zugänglichen Forschungsdaten in vertrauenswürdigen Repositorien 


8 Open Access. © 2021 Laura Rothfritz, Vivien Petras, Maxi Kindling und Heike Neuroth, publiziert von De Gruyter. 
CJEZEEEE Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-015 
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entwickelt.! Auf nationaler Ebene strebt die Nationale Forschungsdateninfrastruktur 
(NFDI) an, das Forschungsdatenmanagement (FDM) von der institutionellen Ebene 
in eine breitere, fachdisziplinäre Koordination zu befördern.? 

Nachhaltigkeit im FDM kann jedoch nicht nur durch die Schaffung übergreifen- 
der Strukturen und Infrastrukturen vorangetrieben werden, sondern auch oder ge- 
rade durch die Ausbildung von Kompetenzen und Fähigkeiten der beteiligten Ak- 
teure. Für ein effektives FDM ist es notwendig, hierfür benötigte Kompetenzprofile, 
die daraus resultierenden Fähigkeiten und Qualifikationswege und Abschlüsse bis 
hin zu neuen Berufsbildern zu reflektieren und ggf. neu zu entwickeln. 

Dieses Kapitel vermittelt einen Überblick über die benötigten Qualifizierungs- 
ziele und Kompetenzen für das FDM sowie beispielhafte Umsetzungsstrategien, so- 
weit diese in der hochschulischen oder weiterbildenden Ausbildung bereits be- 
stehen. 

Unter FDM werden im Folgenden Tätigkeiten gefasst, die den Umgang mit digi- 
tal vorliegenden Daten bezeichnen, die während des Forschungsprozesses entste- 
hen oder das Ergebnis dieses Prozesses sind. In diesem Kapitel liegt der Fokus dabei 
auf digitalen Daten, die in der Domäne Wissenschaft entstehen. Datenmanagement, 
welches auch in anderen Domänen (z.B. Verwaltung, Kultur, Wirtschaft) einen im- 
mer größer werdenden Stellenwert einnimmt, wird nicht explizit betrachtet. In der 
Diskussion werden offene Fragen thematisiert. 


1 Aus- und Weiterbildung als Desiderat im For- 
schungsdatenmanagement 


Der Rat für Informationsinfrastrukturen (RfII) fordert in mehreren Empfehlungen 
zum Aufbau der NFDI die Förderung von bestehenden Kompetenzen im Bereich 
FDM sowie die Entwicklung von Strukturen und Studiengängen zur Ausbildung von 
digital qualifiziertem Personal.’ 
In den 2019 erschienenen Empfehlungen zur Ausbildung digitaler Kompetenzen 
werden spezifisch die 
- Etablierung neuer Berufsbilder im Bereich „Daten“ und digitale Methoden, 
— Erweiterung bestehender Berufsbilder auf der Basis besonderer disziplinärer 
Kompetenzprofile, 
— Transformation von Berufsbildern durch digitale Methodenkomponenten und 


1 S.a. Beitrag von Streit und van Wezel, Kap. 1.2 in diesem Praxishandbuch. 

2 S.a. Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Herausforderungen im For- 
schungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 

3 Vgl. RfII 2016, 49-50; RfII 2019, 10-11. 
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- der Erwerb von Zusatzkompetenzen auf der Basis von Fort- und Weiterbildun- 
gen zur Übernahme neuer oder veränderter Aufgaben im Berufsalltag* gefor- 
dert. 


Der RfII empfiehlt zudem die Bildung von Qualifizierungsallianzen zwischen Fach- 
hochschulen und Universitäten (Empfehlung 4.4.1) sowie eine Erweiterung der Defi- 
nition von Datenkompetenz (Data Literacy) um das Verständnis von wissenschafts- 
politischen und interdisziplinären Perspektiven auf das Datenmanagement 
(Empfehlung 4.8.3). 

Daneben hat der Stifterverband in einer Studie im Auftrag der Arbeitsgruppe 
Curriculum 4.0° den Stand der Forschung zum Umgang mit wissenschaftlichen Da- 
ten, Strukturen und Kollaboration, Kompetenzen und Integration in die Curricula 
sowie Methoden der Kompetenzvermittlung zusammengefasst.° Im Arbeitspro- 
gramm Future Skills’ wurde das bislang detaillierteste deutschsprachige Kompe- 
tenzframework entwickelt. Das Framework ist in sechs übergreifende Kompetenzfel- 
der unterteilt, in denen sich unterschiedliche Rollen im Umgang mit Daten (von Da- 
tenjournalistinnen bzw. -journalisten bis hin zu Datenethikerinnen bzw. -ethikern) 
einordnen lassen. Die Kompetenzfelder sind: 

-  Datenkultur etablieren, 

- Daten bereitstellen, 

— Daten auswerten, 

- Handeln ableiten, 

- Daten interpretieren und 
- Ergebnisse interpretieren.® 


In dem eigens entwickelten Förderprogramm „Data Literacy Education“? fördern 
die Heinz Nixdorf Stiftung und der Stifterverband bisher drei Hochschulen, um pro- 
totypisch den Erwerb von Datenkompetenzen für Studierende aller Fächer an deut- 
schen Hochschulen voranzutreiben. 

Im FDM sind die Zielgruppen von Aus- und Weiterbildungsmaßnahmen sehr 
heterogen. Es können sowohl Forschende als Produzierende und Nutzende von For- 
schungsdaten als auch Angehörige forschungsunterstützender Infrastruktureinrich- 
tungen wie Bibliotheken, Rechenzentren, Datenzentren oder Forschungsadministra- 
tion angesprochen werden. 


4 Vgl. RfII 2019, 20. 

5 S. https://hochschulforumdigitalisierung.de/de/themen/curriculum-40. Letztes Abrufdatum der 
Internet-Dokumente ist der 15.11.2020. 

6 Vgl. Heidrich et al. 2018. 

7 S. https://www.stifterverband.org/future-skills. 

8 Vgl. Schüller et al. 2019, 34. 

9 S. https://www.stifterverband.org/data-literacy-education. 
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Für Mitarbeitende an Informationsinfrastruktureinrichtungen, insbesondere an 
wissenschaftlichen Bibliotheken, hat sich in den letzten Jahren im angloamerikani- 
schen Raum das Berufsbild der sog. Data Librarians herausgebildet. Die Aufgaben 
von Data Librarians bestehen in der aktiven Unterstützung der Forschenden im 
FDM sowie in der Veröffentlichung und der nachhaltigen Speicherung von Daten. 
Zudem fallen Aufgaben in der Schulung und Beratung innerhalb von Forschungs- 
einrichtungen an.!® Data Librarians benötigen sowohl traditionelle bibliothekari- 
sche Kompetenzen als auch Kompetenzen im Bereich Datenmanagement und Infor- 
matik. 

Auch wenn Initiativen wie die EOSC oder NFDI die Unterstützung der Wissen- 
schaft im Fokus haben, so betrifft der kompetente Umgang mit digitalen Daten nicht 
nur die Wissenschaft bzw. wissenschaftsnahe Einrichtungen. Für die zugrunde lie- 
gende Vision, digitale Daten unabhängig von ihrer Entstehung und Quelle für die 
jeweilige Fragestellung gemäß der FAIR-Prinzipien „Findable - Accessible - Inter- 
operable — Reusable“ nachnutzen zu können, braucht es Allianzen quer über ver- 
schiedene Domänen (Wissenschaft, Verwaltung, Kultur, Wirtschaft etc.) und Fach- 
disziplinen hinweg. Auch Forschende haben ein großes Interesse, Daten aus dem 
Kulturbereich, der Wirtschaft etc. oder aus anderen Fachdisziplinen zu nutzen, ge- 
nauso wie Bürgerinnen und Bürger im Rahmen von Partizipationsinitiativen." Für 
die Ausbildung in Deutschland (und weltweit) besteht generell die große Herausfor- 
derung, Qualifizierungsangebote für Personen mit unterschiedlichen fachlichen 
und beruflichen Hintergründen zu entwickeln, um sie im Umgang mit digitalen Da- 
ten zu schulen. Die Identifikation von gemeinsamen Anforderungen, die Entwick- 
lung gemeinsamer Kompetenzprofile und deren Operationalisierung sind eine 
Grundvoraussetzung für die Konzeption von Qualifizierungsmaßnahmen. Diese un- 
terliegen in diesem dynamischen, sich ständig national und international weiter 
entwickelnden Umfeld ebenfalls einem Entwicklungsprozess. 


2 Qualifizierungsziele 


2.1 Data Literacy als grundlegendes Konzept 


Der Umgang mit Forschungsdaten sollte das Ziel verfolgen, in wissenschaftlichen 
Prozessen erhobene Daten so vorzuhalten und zugänglich zu machen, dass sie 
leicht auffindbar, verständlich und nachnutzbar sind. Grundlagen bietet das Kon- 


10 Vgl. Federer 2018, 297 f. 
11 S. https://www.buergerschaffenwissen.de. 
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zept der Data Information Literacy (DIL), das Aspekte im Umgang mit Daten über 
die Informationskompetenz hinaus beschreibt.” Perspektivisch soll ein menschen- 
und vor allem auch maschinenlesbarer Zugang zu Forschungsdaten gemäß der 
FAIR-Prinzipien ermöglicht werden. Um diese Ziele zu erreichen, werden Kompeten- 
zen im Umgang mit Daten, die aus Digitalisierung und Vernetzung resultieren, heu- 
te in allen Wissenschaftsdisziplinen, in der Wissenschaftsverwaltung und den Do- 
mänen Kultur, Wirtschaft und öffentliche Verwaltung benötigt, die sich unter dem 
Stichwort Datenkompetenzen (engl. data literacy) subsumieren lassen. 

Der Stifterverband für die Deutsche Wissenschaft versteht unter Data Literacy 
die „Fähigkeiten, Daten auf kritische Art und Weise zu sammeln, zu managen, zu 
bewerten und anzuwenden“. Im Zentrum dieser Definition stehen nicht nur Me- 
thoden und Technologien im Umgang mit Daten, sondern vielmehr Kompetenzen 
im kritischen, kontext-orientierten Bewerten von Daten als Produkte von (digitalen) 
Prozessen, ihre Potentiale und Limitationen. Datenethik, Motivation und Werterhal- 
tung für den zukünftigen Umgang mit Daten spielen dabei eine zentrale Rolle: 


Data Literacy gestaltet die Digitalisierung und die globale Wissensgesellschaft in allen Sekto- 
ren und Disziplinen. Gleichzeitig müssen Hochschulabsolventinnen aller Fächer über fachspe- 
zifische Datenkompetenzen für die Wissenschaft und für die Arbeitswelt verfügen." 


In Anlehnung an die Definition des Stifterverbands und auf Basis des FDM-Konzepts 
verstehen wir Data Literacy als 


die Kompetenz des kritischen und lösungsorientierten Umgangs mit digitalen Daten. Sie um- 
fasst die Auseinandersetzung mit digitalen Daten, angefangen bei ihrer Entstehung über die 
Prozesse, Instrumente und Infrastrukturen zu ihrer Verarbeitung, Analyse und Bereitstellung 
inklusive Publikation bis hin zu ihrer langfristigen Sicherung und Nachnutzung. Neben dem 
planvollen und kritischen Einsatz von Daten für verschiedene (interdisziplinäre) Kontexte ist 
die kritische Auseinandersetzung, d.h. das Verstehen, Analysieren und Bewerten von rechtli- 
chen, technischen und organisatorischen Rahmenbedingungen, Anforderungen und Lösungen 
bedeutend. Dieses konzeptuelle Wissen ist darüber hinaus in die verschiedenen Domänen wie 
Forschung und Wissenschaft, Kultur, Gesellschaft und Wirtschaft übertragbar. 


12 Vgl. Carlson et al. 2015. 

13 Die Vermittlung von Data Information Literacy an Forschende schließt sich in diesem Sinne an 
die schon praktizierte Vermittlung von Information Literacy an. Hierbei gelten neben der Datenver- 
arbeitung und -analyse auch deren Übernahme und Wiederverwertung, Umwandlung und Migra- 
tion sowie Integration mit dem Ziel der Interoperabilität über Domänen bzw. Bereiche, Sprach- und 
Ländergrenzen hinweg. Hinzu kommen Kenntnisse im Bereich Ethik und Datenschutz, Datenban- 
ken und Formate, Metadaten und Datendokumentation sowie Datenvisualisierung. 

14 Schüller, Busch und Hindinger 2019, 10; nach Risdale et al. 2015. 

15 S. https://www.stifterverband.org/data-literacy-education. 

16 Petras et al. 2019, 28. 
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2.2 Kompetenzbereiche 


Während Data Literacy als übergeordnetes Konzept die Fähigkeiten beschreibt, die 

für den Umgang mit Daten wichtig sind, ist die Definition spezifischer Kompetenzen 

auf operationaler Ebene mit dem expliziten Bezug zu FDM im Jahr 2019 noch in der 

Entwicklung. Im Folgenden wird der Bereich Wissenschaft im Hinblick auf Data Li- 

teracy beleuchtet. Dies liegt u.a. auch daran, dass die anderen Bereiche wie Kultur, 

Wirtschaft oder Verwaltung zum Teil andere Wege verfolgen bzw. (inter-)national 

noch keine koordinierenden Aktionen gestartet sind. 

Im internationalen Kontext hat die Erarbeitung von Kompetenzframeworks und 
Referenzcurricula im Zuge der Aktivitäten rund um die EOSC begonnen. Das EU-Pro- 
jekt EOSCpilot” erarbeitete neben unterschiedlichen Rollenprofilen auch Kompe- 
tenzprofile, die im Framework FAIR4S'® abgebildet werden. Es wird unterschieden 
zwischen „capabilities“ (Fähigkeiten) und „competencies“ (Kompetenzen), wobei 
sich Fähigkeiten auf kollektive, z.B. in Forschungseinrichtungen ausgeführte Prak- 
tiken bezieht und Kompetenzen individuellen Personen zugeordnet werden können. 
Sowohl Fähigkeiten als auch Kompetenzen umfassen dabei drei Dimensionen: Ex- 
pertise, Organisation und Verantwortlichkeiten.'? Im Bereich der Expertise wird zwi- 
schen den drei Leveln Basic, Intermediate und Expert unterschieden. Die Dimension 
Organisation umfasst die Abstufungen Individual, Team und Organisation, wäh- 
rend die Dimension Verantwortlichkeiten den vier Karrierestufen des European Re- 
search Careers Frameworks entspricht.”° 

Die unterschiedlichen Kompetenzen werden in folgende Kompetenzbereiche 
aufgeteilt, die gleichzeitig auch den Daten-Lebenszyklus abbilden und denen je- 
weils eine sogenannte „Key skill“ (Schlüsselkompetenz) zugeordnet ist: 

— Plan and design: Planung des Forschungsvorhabens und des zugehörigen FDM, 
beispielsweise in Bezug auf verwendete Metadatenschemata und Datenmodelle 
sowie Softwarelösungen. Die Planung umfasst eine Anforderungsaufstellung an 
die Forschungsergebnisse von Seiten der Forschenden, der Forschungseinrich- 
tung und der Forschungsförderer, Strategieentwicklungen, um diesen Anforde- 
rungen gerecht zu werden sowie eine fortlaufende Evaluierung des Forschungs- 
prozesses unter diesem Aspekt. 

Key skill: Planung des Datenmanagements und des Teilens von FAIR-konfor- 

men Forschungsergebnissen. 


17 S. https://eoscpilot.eu/. 

18 S. https://eosc-fair4s.github.io. 

19 Vgl. Whyte et al. 2019, 29 f. 

20 Die vier Karrierestufen werden bezeichnet als: ,,R1: First Stage Researcher (up to the point of 
PHD), R2: Recognized Researcher (PhD holders or equivalent who are not yet fully independent), R3: 
Established Researcher (researchers who have developed a level of independence), R4: Leading 
Researcher (researchers leading their research area or field)“ Vgl. European Commission 2011, 2. 
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Capture and process: Erfassung der Daten während der Forschungsaktivität und 
ihre Weiterverarbeitung mit dem Fokus auf Datenorganisation, Workflowma- 
nagement und Softwareverwendung, Organisation und Bereitstellung von si- 
cheren und skalierbaren Speichersystemen sowie Entwicklung und Bereitstel- 
lung von Plattformen, Services und Werkzeugen fiir die Kollaboration. 

Key skill: (Nach-)Nutzung von Forschungsdaten. 

Integrate and analyse: Datenintegration und -analyse, einschließlich mathema- 
tischer und theoretischer Analyseverfahren, Datenabfragefunktionalitäten und 
integrativer Datenmodellierung. 

Key skill: Verwendung und/oder Entwicklung von FAIR-konformen Forschungs- 
werkzeugen und -services. 

Appraise and preserve: Datenbewertung und -übernahme für die Langzeitarchi- 
vierung, beispielsweise durch Qualitätsprüfung, Datentransfer, (Format-)Migra- 
tion und rechtlicher sowie ethischer Prüfung. Dies umfasst die Bewertung von 
Daten im Hinblick auf Reproduzierbarkeit von Forschungsergebnissen und ihr 
Potential für die zukünftige Nachnutzung innerhalb neuer Forschungsprojekte. 

Key skill: Vorbereitung und Dokumentation von Daten und Code, um FAIR-Kon- 
formität sicherzustellen. 

Publish and release: Veröffentlichung von Datensätzen inklusive Zugriffskon- 
trollen und Lizenzierungsmethoden. Mit eingeschlossen sind die Veröffentli- 
chung der Datendokumentation, eine Beschreibung von Interdependenzen mit 
anderen Datensätzen und eine kontextuelle Einordnung. 

Key skill: Veröffentlichung von FAIR-konformen Forschungsergebnissen in ent- 
sprechenden Repositorien. 

Expose and discover: Optimierung der veröffentlichten Datensätze für die 
Auffindbarkeit und Nachnutzbarkeit, beispielsweise durch die Verwendung von 
kontrollierten Vokabularen, Sicherstellung der Zitierbarkeit oder Visualisie- 
rung. 

Key skill: Zitierung von Forschungsdaten. 

Govern and assess: Steuerung und Bewertung von Forschungsaktivitäten in Be- 
zug auf Strategieentwicklung, FAIR-konforme Daten, Sicherheitsmanagement 
und Data Governance. 

Key skill: Die richtige Anwendung von Policies, um die Einhaltung von ethi- 
schen und rechtlichen Bedingungen sowie der FAIR-Prinzipien sicherzustellen. 
Scope and resource: Reichweite und Ressourcenmanagement für das Datenma- 
nagement mit Hinblick z.B. auf Services, Change-Management oder anfallende 
Kosten. 

Key skill: Sicherstellung der Finanzierung von Open-Science-Praktiken und 
-Services. 

Advise and enable: Beratung und Befähigung zum Datenmanagement unter an- 
derem durch Training, Ausbildung oder Kollaboration. 
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Key skill: Einnehmen einer Vorbildfunktion im Sinne von Open Science und 
FAIR-konformer Forschung. 


2.3 Zielgruppen und Kompetenzprofile 


Unterschiedliche Stakeholder im Forschungsprozess können verschiedene Rollen 
im FDM einnehmen, die unterschiedliche Kompetenzanforderungen mit sich brin- 
gen. Im Hinblick auf Qualifizierungsmöglichkeiten und -maßnahmen ist es daher 
wichtig, die Zielgruppe und ihre Aufgaben im FDM zu berücksichtigen. 

Diese Kompetenzprofile werden im FAIR4S Framework detailliert abgebildet. 
Das Framework unterscheidet zwischen Forschenden, Data Scientists, Data Advisor 
und Data Service Provider” (s. Tab. 1). 


Tab. 1: Forschungsdatenkompetenzprofile anhand von Zielgruppen 


Rolle Beschreibung Kompetenzprofil (Key Skills) 
Forschende Erhebung, Verwendung und Planung des Datenmanagements 
Nachnutzung von Daten mit Datenethik und rechtliche Impli- 
Hilfe von fachspezifischen kationen 
Methoden Publikation und Zitation von Da- 


ten (z. B. mittels PID-Systemen) 
Kenntnis von Förderrichtlinien 
und -anforderungen 
Datendokumentation (Metada- 


tenstandards) 
Data Advisor Kontaktpunkt für alle (inter- Planung des Datenmanagements 
disziplinären) Fragen rund um Entwicklung und Nutzung offe- 
das Datenmanagement, z.B. ner Systeme für das Datenma- 


zu ethischen Fragen in Bezug nagement 

auf Projektadministration oder Datenethik und rechtliche Impli- 

technische Umsetzungen kationen 
Förderrichtlinien und -anforde- 
rungen 
Datendokumentation (Metada- 
tenstandards) 
Strategieentwicklung (interne 
Policies, Workflows etc.) 


21 Vgl. Whyte et al. 2019, 28 f. 
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Rolle Beschreibung Kompetenzprofil (Key Skills) 
Data Scientist Spezialisierte Personen (ggf. Nachnutzung von Forschungs- 
fachspezifisch) für die statisti- daten 
sche Datenauswertung und Entwicklung und Nutzung offe- 
Analyse ner Systeme für das Datenma- 
nagement 
Datendokumentation (Metada- 
tenstandards) 
Vorbereitung für die Datenpubli- 
kationen 
Data Service Provider Repräsentation der (techni- Entwicklung und Nutzung offe- 


schen) Infrastruktur, z.B. für ner Systeme für das Datenma- 
die Publikation und langfristige nagement 


Archivierung und für For- Planung des Datenmanagements 

schungstechnologien (z.B. Datenethik und rechtliche Impli- 

Rechenzentren, Forschungs- kationen 

software) Datendokumentation (Metada- 
tenstandards) 


Publikation und Zitation von Da- 
ten (z. B. mittels PID-Systemen) 


Der RfII hat in seinen Empfehlungen „Digitale Kompetenzen - Dringend gesucht!“ 
drei Typen von Aufgaben im FDM unterschieden: 

- Typ A: Unterstützung der Forschung (Administration) 

- Typ B: Kollaboration mit Forschung (Infrastruktur) 

- Typ C: Wissenschaftliche Tätigkeit (Forschung) 


Innerhalb der Gruppe der Forschenden (Typ C) spielt vor allem ein fachspezifischer 
oder sogar ein projektspezifischer Umgang mit Daten die größte Rolle. Besonders 
die Vorgaben der Forschungsförderung” und der Verlage, neben publizierten For- 
schungsergebnissen auch Daten offen zugänglich zu machen, verstärken die Not- 
wendigkeit von speziellen Kompetenzen im wissenschaftlichen Datenmanagement. 
Der RfII betont die „Verwissenschaftlichung“ forschungsnaher Infrastrukturtä- 
tigkeit (Typ B) und die damit aufkommenden Anforderungen an Kompetenzen so- 
wie die direkte Verortung innerhalb der Einrichtungen. Dies sind Aufgaben, die an 
der Schnittstelle zwischen rein forschenden und forschungsunterstützenden Aufga- 
ben anfallen. Zu den forschungsnahen Aufgaben zählen u.a. Methodenberatung, 
die Erstellung von Datenmanagementplänen (DMP), die Pflege von Datenkorpora 
unter besonderer Betrachtung der (kontextuellen) Qualität der Daten und die recht- 
liche Ausgestaltung der (Nach-)Nutzung von Forschungsdaten. Diese Kompetenzen 
spiegeln sich im FAIR4S-Framework in der Rolle „Data Advisor“ wider. Der RfII for- 


22 Vgl. RfII 2019, 7. 
23 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 
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dert in diesem Kontext, Infrastrukturen und Forschung auch personell stärker zu 
verschränken und beispielsweise Stellen in Infrastrukturen vermehrt mit wissen- 
schaftlichem Personal zu besetzen.” 

Diese Entwicklungen führen dazu, dass neue Berufsfelder mit eigenen Kompe- 
tenzprofilen in der Kooperation zwischen Typ B (Infrastruktur) und Typ C (For- 
schung), aber auch an der Schnittstelle zwischen allen drei Bereichen entstehen, 
die koordinierend und vermittelnd zwischen Infrastrukturen, Administration und 
Forschung tätig werden. 

Während in Deutschland eben solche Rollen bislang nicht explizit ausgeschrie- 
ben oder besetzt werden (können), gibt es im europäischen Ausland, speziell in den 
Niederlanden, bereits Strategien und Strukturen. Die Technische Universität Delft in 
den Niederlanden nimmt hier eine Vorreiterrolle ein: Sogenannte Data Stewards er- 
füllen eine Brückenfunktion zwischen Fachwissenschaftlerinnen bzw. -wissen- 
schaftlern und wissenschaftlicher Informationsinfrastruktur und erfüllen demzufol- 
ge forschungsnahe Aufgaben.” Einen speziellen Ausbildungsweg gibt es allerdings 
auch in den Niederlanden noch nicht. Erste Schritte in Richtung eines international 
übergreifenden Curriculums für Data Stewardship werden zurzeit im Kontext der 
Research Data Alliance (RDA) erarbeitet.” 


2.4 Ausbildungsaspekte und -inhalte 


Die durch die Kompetenzprofile geforderten Ausbildungsinhalte lassen sich grob in 
die Kategorien Methoden, Technologien und Rahmenbedingungen des Datenma- 
nagements einteilen. Der Aspekt Methoden umfasst alle methodisch-operativen As- 
pekte des FDM, wie z.B. die Kenntnis von zu verwendenden Metadatenstandards, 
Workflows und Standards zur Datendokumentation und allgemein die umfängliche 
Planung des Datenmanagements sowie die Veröffentlichung und/oder Nachnut- 
zung von Forschungsdaten mit Hilfe von DMP. 

Der Aspekt Technologien bezieht sich auf technologisch-operative Aspekte des 
Datenmanagements. Hierunter fallen z.B. Kenntnisse von Datenbanksystemen und 
Schnittstellen sowie Programmiersprachen und computergestützte statistische Aus- 
wertungsmethoden für große Datenmengen (wie Python oder R). Immer wichtiger 
werden zudem Methoden der Datenvisualisierung. 

Der Aspekt Rahmenbedingungen umfasst hauptsächlich Kenntnisse auf strate- 
gisch-operativer Ebene des Datenmanagements. Diese schließen Kenntnisse zu ethi- 


24 Vgl. RfII 2019, 16 f. 
25 Vgl. Plomp et al. 2019, 4-5. 
26 Vgl. Shanahan et al. 2019, 1. 
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schen und rechtlichen Implikationen des Datenmanagements sowie tiefgehende 
Kenntnisse von nationalen und internationalen Policies mit ein. 


3 Qualifizierungsmöglichkeiten in Deutschland 


Für die Qualifizierung im Bereich FDM kann in Deutschland zwischen unterschiedli- 
chen Aus-, Fort- und Weiterbildungsmöglichkeiten unterschieden werden. Zu Aus- 
bildungsmöglichkeiten werden dabei grundständige und weiterbildende Studien- 
sänge gezählt. Fort- und Weiterbildungsmöglichkeiten können einerseits 
spezifische und längerfristige Kursprogramme beinhalten, die auf bereits abge- 
schlossene Studiengänge aufsetzen und z.B. als Zertifikate angeboten werden kön- 
nen, und andererseits eher konzentrierte und kürzere Programme wie Schulungen, 
spezifische Workshops oder Lehrgänge sein. 


3.1 Studiengänge und Lehrveranstaltungen 


Eine an der Fachhochschule Potsdam durchgeführte Analyse? potenziell einschlä- 
giger Studiengänge in Deutschland in den Jahren 2018 und 2019 ergab, dass ca. 160 
Angebote damit werben, für Berufsfelder in den Bereichen Data Science, Data Ana- 
lysis, Data Management, Data Curator oder Data Librarian im engeren und weiteren 
Sinn zu qualifizieren. Von diesen führen ca. 50 grundständige Studiengänge zum 
Abschluss Bachelor und ca. 110 als weiterführende Studiengänge zum Abschluss 
Master bzw. Diplom. Spezifische Kenntnisse im FDM werden, wenn überhaupt, in 
Deutschland allerdings hauptsächlich in informationswissenschaftlichen Studien- 
gängen und teilweise in anderen fachspezifischen Studiengängen integriert. Viele 
der Data-Science- und Data-Analysis-Studiengänge haben einen starken Fokus auf 
mathematische, informatische und statistische Grundlagenvermittlung und sind 
überwiegend an einer Fakultät für Informatik bzw. Mathematik angesiedelt.” 
Grundständige und weiterbildende Studiengänge, die speziell im Bereich FDM 
ausbilden, finden sich in Deutschland vor allem in bibliotheks- und informations- 


27 Die Ergebnisse dieser Analyse sind bisher noch nicht veröffentlicht, können aber bei Interesse 
bei den Autorinnen angefragt werden. Die Analyse war für die Einrichtungsgenehmigung bei den 
zuständigen Ministerien des neuen Studiengangs (ab April 2020) Digitales Datenmanagement 
(DDM) nötig, um diesen zwischen FH Potsdam und HU Berlin kooperativ betriebenen Studiengang 
inhaltlich in der bisherigen Studienlandschaft zu verorten. 

28 Zu Lern- und Ausbildungsinhalten im Bereich Data Science hat die Gesellschaft für Informatik 
kürzlich ein Arbeitspapier veröffentlicht, s. https://www.plattform-lernende-systeme.de/files/ 
Downloads/Publikationen/GI_Arbeitspapier_Data-Science_2019-12_01.pdf. 
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wissenschaftlichen Fachrichtungen. Diese werden im Kapitel Bewusstseinsbildung 
im Curriculum in diesem Handbuch genauer aufgefiihrt und beschrieben.” 


Tab. 2: Forschungsdatenmanagement-Module in Bachelor- und Masterstudiengängen in Deutsch- 


land 


Studiengang 
TH Köln: BA Bibliothek und Kommunikation 


Relevante Module 


Modul Forschungsdaten 
Modul Infrastruktur für Forschungsdaten 


TH Köln: BA Data and Information Science 


Modul Datenmodellierung 
Modul Statistische Datenanalyse 
Modul Datenbanksysteme 
Modul Data Mining 


Hochschule Darmstadt: BSc Information 
Science 


Modul Grundlagen der Informatik 

Modul Datenbanken 

Modul Linked Data 

Modul Forschungsdatenmanagement und Daten- 
modellierung in Bibliotheken 

Modul XML und Anwendungen 

Modul Informationssysteme 

Modul Linked Data Anwendungsentwicklung 
Modul Datenbank-Praxis 

Modul Grundlagen der Datenvisualisierung 
Modul NLP-based Data Science 


Hochschule Darmstadt: MSc Information 
Science 


Modul Informationsvisualisierung 
Modul Visual Analytics 

Modul Forschungsdatenmanagement 
Modul Forschungsmonitoring 


Hochschule der Medien Stuttgart: BA Informati- 
onswissenschaften (Daten- und Informations- 
management) 


Modul Datenstrukturierung und Recherche 
Modul Web-Technologien 

Modul Daten und Datenintegration 

Modul Metadatenmanagement 

Modul Open Government und Open Data 


HU Berlin: BA Bibliotheks- und Informationswis- 


senschaft und Informationsmanagement & 
Informationstechnologie 


HU Berlin und FH Potsdam: MA Digitales Daten- 
management (DDM) 


Modul Informations- und Kommunikationstechno- 
logie 

Modul Informationsmanagement 

Modul Information Processing and Storage 


Modul Rahmenbedingungen des Datenmanage- 
ments 

Modul Technologien des Datenmanagements 
Modul Methoden des Datenmanagements 


29 S.a. Beitrag von Fühles-Ubach und Albers, Kap. 3.1 in diesem Praxishandbuch. 
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Studiengang Relevante Module 


HU Berlin: MA Information Science Modul Datenanalyse und -auswertung 
Modul Digitale Informationsversorgung 
Modul Knowledge Discovery in Databases 
Modul Digitale Infrastrukturen 
Modul Digital Curation 


FH Potsdam: BA Bibliothekswissenschaft Modul Webtechnologien und Informationssys- 
teme 
Modul Metadatenvertiefung 
Modul Langzeitarchivierung und Forschungsda- 
tenmanagement 


FH Potsdam: MA Informationswissenschaften Modul Informationsintegration, Interoperabilitat 
und Standards 
Modul Forschungsdatenmanagement 
Modul Digitale Langzeitarchivierung 


Grundlegende FDM-Kenntnisse werden vorwiegend in eher anwendungsorientierten 
Studiengängen vermittelt und beinhalten eine breite Sicht auf den Forschungsda- 
tenlebenszyklus. Diese finden sich vor allem in den in Tab. 2 abgebildeten Studien- 
gängen aus dem informationswissenschaftlichen Kontext wieder. 

Der Abgleich der Modulhandbücher mit den im FAIR4S entwickelten Kompeten- 
zen zeigt, dass der Fokus der Studiengänge bislang auf dem Erfassen und Prozessie- 
ren, dem Integrieren, Analysieren (bezogen auf Datenstrukturen, Datenformaten 
und z.B. Linked-Open-Data-Anwendungen) und dem Bereitstellen bzw. der Veröf- 
fentlichung von Daten liegt. Insbesondere die Bereiche Umfang und Mittel (Scope 
and Resource) und beratende Tätigkeiten (Advise and Enable) werden bislang eher 
weniger abgedeckt. Für eine Tätigkeit im Sinne der Rolle „Data Advisor“ müssten 
hier innerhalb der Curriculums-Entwicklung noch bessere Grundlagen geschaffen 
werden. 

Punktuell hervorzuheben wäre hierbei der im Sommersemester startende wei- 
terbildende Masterstudiengang Digitales Datenmanagement, der gemeinsam von 
der FH Potsdam und der HU Berlin entwickelt wurde und im Sommersemester 2020 
startete. Das Curriculum ist anhand der Themenblöcke Rahmenbedingungen, Tech- 
nologien und Methoden des Datenmanagements strukturiert, die jeweils ein Modul 
bilden. Innerhalb der jeweils vier Modulkurse werden inhaltlich die Themen 
- Theoretische Grundlagen des Datenmanagements, 

- Forschungs- und Informationsinfrastrukturen, 
- Open Access, Open Data und Open Science, 

— Metadaten, Standards, Interoperabilität, 

- Internet- und Webtechnologien, 

- Datenmanagementsysteme, 

- Algorithmen und Datenstrukturen, 

- Digitale Repositorien, 

- FDM, 
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- Datenmanagementplane, 
— Statistische Methoden der Datenaufarbeitung und -auswertung sowie 
— Datenanalyse und Datenvisualisierung behandelt. 


Der Studiengang ist als weiterbildender Masterstudiengang konzipiert, was bedeu- 
tet, dass Kompetenzen im Datenmanagement auf vorherige Kompetenzen in unter- 
schiedlichen Fachdisziplinen aufbauen. Die im Studiengang Digitales Daten- 
management erworbenen Fähigkeiten sollen wiederum auf unterschiedliche 
(Wissenschafts-)Domänen übertragbar sein, so dass Absolventinnen und Absolven- 
ten des Studiengangs in die Lage versetzt werden, an der Schnittstelle zwischen Da- 
tenmanagement, Fachwissenschaft und Technologie zu agieren, die jeweiligen 
Standpunkte und Anforderungen, die sich aus den einzelnen Bereichen ergeben, 
kritisch zu reflektieren und zwischen ihnen zu vermitteln.” Die Zielgruppe des Stu- 
diengangs ist daher dezidiert nicht im rein informationswissenschaftlichen Bereich 
angesiedelt — vielmehr soll aus dem Austausch von Studierenden aus unterschiedli- 
chen Wissenschaftsdomänen die Interdisziplinarität des größeren Bereichs FDM 
hervorgehoben und gefördert werden und insbesondere auch für beratende Tätig- 
keiten (Advise and Enable) qualifizieren. 

Disziplinspezifische Inhalte zum FDM können zudem innerhalb von fachspezifi- 
schen Studiengängen auch außerhalb der Informationswissenschaft vermittelt wer- 
den. Hierbei liegt es jedoch nah, dass tiefergehende Kenntnisse vor allem auf opera- 
tiver Ebene (Datenerhebung, Datenprozessierung, Datenauswertung) und die 
entsprechenden Technologien vermittelt werden, da diese häufig die Grundlage der 
Forschungstätigkeiten darstellen. Vertiefende Aspekte zu Anforderungen, Rahmen- 
bedingungen oder Methoden speziell für den weiteren Umgang mit so entstandenen 
Forschungsdaten, z.B. das Beschreiben mit Metadaten (Appraise and Preserve), die 
Veröffentlichung (Expose and Discover/Publish and Access) und damit einherge- 
hende Entscheidungen z.B. zu Lizenzen (Govern and Assess) sind Kompetenzen, 
die innerhalb von Studiengängen bislang nur sehr wenig vorkommen. 

An der Universität Bielefeld kann von allen eingeschriebenen Studierenden der 
Kurs Forschungsdatenmanagement als Wahlmodul belegt werden. Der Kurs ist in- 
terdisziplinär ausgerichtet und dauert ein Semester. Inhalte sind eine Einführung in 
das FDM, der Umgang mit Forschungsdaten (Back-up, Archivierung, Nachnutzung, 
Veröffentlichung etc.) sowie Werkzeuge (Git, Software für DMP etc.). Teilnehmende 
Studierende befinden sich sowohl in Bachelor- als auch in Master-Studiengängen 
oder sind Promovierende. Nachdem der Kurs 2013 mit neun Studierenden begann, 
nahmen 2018 schon 91 Personen teil.” Die wachsende Anzahl an Teilnehmenden 
kann darauf hindeuten, dass Kompetenzen im Umgang mit Forschungsdaten im 


30 Vgl. Kindling und Rothfritz, 2019, 240. 
31 Vgl. Wiljes und Cimiano, 2019, 3. 
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Sinne der guten wissenschaftlichen Praxis” auch auf Ebene der Studierenden an 
Bedeutung gewinnen. 

An dieser Stelle greifen Weiterbildungsmaßnahmen von Seiten der Infrastruk- 
tureinrichtungen, die eben solche Kenntnisse vermitteln sollen. Gleichzeitig muss 
jedoch berücksichtigt werden, dass entsprechende Angebote auch zu einem nicht 
zu unterschätzenden Anteil fachspezifische Kenntnisse von Seiten der Ausbilderin- 
nen bzw. Ausbilder voraussetzen. Data Advisors müssten an dieser Stelle eine fach- 
spezifische Ausbildung besitzen und zusätzlich Qualifikationen im Datenmanage- 
ment mitbringen, die sich eher in den angebotenen Inhalten aus den informations- 
wissenschaftlichen Studiengängen finden. 


3.2 Weiterbildung und Beratung 


Wissenschaftliche Informationsinfrastruktureinrichtungen wie Bibliotheken oder 
Rechenzentren entwickeln zunehmend Beratungs- und Fortbildungsangebote” für 
das FDM, die von Formaten wie ganztägigen Workshops bis hin zu kurzen Coffee 
Lectures reichen. Thematisch reichen diese Angebote vom generischen FDM (wie 
z.B. allgemeine Einführungen in das Forschungsdatenmanagement) bis hin zu 
fachspezifischen Kompetenzen im FDM (z.B. für bestimmte Fachdisziplinen). Zu- 
nehmend werden darüber hinaus Werkzeuge und Anwendungen für das Datenma- 
nagement vermittelt. Beispiele hierfür sind der Umgang mit Software für die Erstel- 
lung von DMPs (z.B. Research Data Management Organizer - RDMO*) oder mit Pro- 
grammen wie Git. 

Die Unterarbeitsgruppe Schulungen/Fortbildungen der DINI/nestor-AG Digitale 
Forschungsdaten” sammelt hierzu Schulungs- und Informationsmaterialien im 
Wiki forschungsdaten.org. Darüber hinaus gewinnen Online-Lernangebote wie Vi- 
deo-Tutorials (z. B. von der Landesinitiative FDM Bayern”) oder Online-Kurse an Be- 
deutung, wobei diese bislang weitestgehend im englischsprachigen Raum (USA/ 
UK) entwickelt werden. Ein bekanntes Beispiel hierfür ist das bereits seit vielen Jah- 
ren etablierte Angebot MANTRA der University of Edinburgh.” 

Zum „Lebenslangem Lernen“ können Zertifikatskurse beitragen, die anstatt ei- 
ner Belegung von mehrsemestrigen Studiengängen die Teilnahme an einzelnen Kur- 
sen aus einem (Studien-)Programm ermöglichen, die mit einem Zertifikat abge- 


32 S. https://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/gwp/index.html. 

33 S.a. Beitrag von Helbig, Kap. 3.3 in diesem Praxishandbuch. 

34 Vgl. Wuttke 2019; S. https://rdmorganiser.github.io/. 

35 S. https://dini.de/ag/dininestor-ag-forschungsdaten. 

36 S. https://www.fdm-bayern.org/ehumanities-interdisziplinaer/ziele-und-arbeitspakete/e-lear- 
ning. 

37 S. https://mantra.edina.ac.uk. 
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schlossen werden. Ein Beispiel hierfiir ist der Zertifikatskurs Data Librarian an der 
TH Köln, der 2019 gestartet ist. Zielgruppe dieses Kurses sind Mitarbeitende in wis- 
senschaftlichen Bibliotheken, die für den Umgang mit (wissenschaftlichen) Daten 
qualifiziert werden sollen. Inhalte des Kurses sind Einführung in Programmierspra- 
chen, Datenbeschreibungen, -strukturen und das Auffinden von Daten sowie Daten- 
analyse und die Bereitstellung von Daten und Unterstützung des FDM.*8 

Die Kurse des weiterbildenden Studiengangs Digitales Datenmanagement 
(DDM) von HU Berlin und FH Potsdam können ebenfalls als Zertifikatskurse belegt 
werden. Hier besteht die Besonderheit, dass nach der Absolvierung aller Zertifi- 
katskurse durch Erbringen der entsprechenden Prüfungsleistungen (u.a. Masterar- 
beit) der Masterabschluss erlangt werden kann. 

Im Bereich der Weiterbildung ist das aus dem US-amerikanischen Raum stam- 
mende Konzept der „Carpentries“ in Deutschland seit 2018 populär geworden. Die 
Carpentries“® (unterteilt in Data Carpentry, Software Carpentry und Library Carpen- 
try) sind eine weltweit vernetzte Community von ehrenamtlich Tätigen, die mit 
Workshops und der Entwicklung offener Lehr- und Lernmaterialien (OER) dazu bei- 
tragen möchte, Fähigkeiten im Umgang mit digitalen Daten und Software zu vermit- 
teln. Carpentry Workshops umfassen meistens zwei Tage und werden von zertifi- 
zierten „Instructors“ abgehalten. In Deutschland organisiert der Verband Deutscher 
Bibliothekare (VDB) Library Carpentry Workshops in unterschiedlichen Städten. 
Seit April 2019 ist der Verband der Dachorganisation Carpentries beigetreten und 
somit auch befähigt, eigene Instructors auszubilden.‘! Bei den Carpentries handelt 
es sich um eine Bottom-up-Organisation, deren Zielgruppe sowohl Forschende als 
auch Menschen in forschungsunterstützenden Tätigkeitsbereichen (wie Bibliotheka- 
rinnen und Bibliothekare) sind. Workshops können auch themenspezifisch stattfin- 
den (z.B. Data Carpentry für die Bioinformatik). Sie sind aber immer so konzipiert, 
dass eine Nachnutzbarkeit gewährleistet ist. 

Eine Auswertung aller bisher abgehaltenen Workshops zeigt, dass thematisch 
Python als Programmiersprache für die Automatisierung von Workflows und die Be- 
arbeitung von Daten sowie für ihre Auswertung am häufigsten vermittelt wird.’? Die 
Programmiersprache R wird darüber hinaus für die Datenauswertung ebenfalls oft 
gelehrt. Die Workshops vermitteln anwendungsorientiert operationale Kompeten- 
zen im Umgang mit Daten, wobei Rahmenbedingungen wie Policies, Planungsan- 
forderungen und Strategien weitestgehend ausgeklammert werden. Dennoch ergibt 


38 Vgl. Georgy und Lanczek 2019, 5. 

39 S. http://www.ddm-master.de/ddm-als-weiterbildung. 

40 S. https://carpentries.org. 

41 Vgl. VDB 2019. 

42 Für die Datengrundlage s. https://github.com/carpentries/assessment. 
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sich ein hoher Multiplikationsfaktor durch die Kurse und eine sehr hohe Reichweite 
der Inhalte durch ihre Nachnutzbarkeit. 

Das erste und umfangreichste Weiterbildungskonzept für spätere Multiplikato- 
rinnen und Multiplikatoren (z.B. Angestellte in Informationsinfrastruktureinrich- 
tungen) in der Weiterbildung wurde durch das Projekt FDMentor”? entwickelt. Das 
Train-the-Trainer Konzept wurde 2019 in der zweiten Version veröffentlicht und um- 
fasst Inhalte zu Lehreinheiten, detaillierte Lehrdrehbücher, Arbeitsmaterialien, Vor- 
tragsfolien und zahlreiche Arbeitsblätter und Vorlagen, die das Lehren unterstützen 
können.“ Neben theoretischen Inhalten legt das Konzept einen besonderen Fokus 
auf die didaktische Gestaltung von Weiterbildungsmaßnahmen. Bis 2019 wurden 
zehn Train-the-Trainer-Workshops durchgeführt, die als zweitägige Veranstaltung 
aufgeteilt in 22 Lerneinheiten konzipiert sind. Die Zielgruppe kann neben Informati- 
onsspezialistinnen und -spezialisten auch weitere Multiplikatorinnen und Multipli- 
katoren wie Lehrende an Hochschulen, Projektverantwortliche oder andere am FDM 
Beteiligte umfassen.“ 


4 Diskussion 


Für die Aus-, Fort- und Weiterbildung im Bereich FDM ist die Definition der Ziel- 
gruppe und die Ausrichtung der Kompetenzvermittlung nicht zu unterschätzen. Be- 
vor Kompetenzen z.B. für die Entwicklung neuer Studiengänge beschrieben werden 
können, muss festgelegt werden, wer ausgebildet werden soll. Gerade im Hinblick 
auf Rollen und berufliche Profile, sei es, wie im FAIR4S Framework beschrieben, 
die Unterteilung in Forschende, Data Scientists, Data Advisors und Infrastruktur 
oder die RfII Unterteilung in die drei Bereiche Administration, forschungsnahe Tä- 
tigkeiten und Forschung/Lehre, sind Rollen und Profile in Deutschland bislang al- 
lerdings noch nicht vollständig entwickelt bzw. entsprechend benannt und situiert. 
Wie 2019 vom RfII empfohlen, wird mehr Ausbildung und Weiterbildung im FDM 
dringend benötigt. Weitere professionelle Rollen im Umgang mit Daten müssen aus- 
definiert werden, um Zielgruppen genauer eingrenzen und damit systematisch qua- 
lifizieren zu können. Hierbei müssen sowohl der disziplinäre Hintergrund als auch 
die Positionierung der angestrebten Tätigkeit innerhalb der Organisation der Ein- 
richtung berücksichtigt werden. 

Forschungsnahe oder forschungsunterstützende Kompetenzen zum infrastruk- 
turellen FDM können in informationswissenschaftlichen Studiengängen vermittelt 
werden, disziplinäres FDM mit anderen Schwerpunkten in den jeweiligen fachspezi- 


43 S. https://www.forschungsdaten.org/index.php/FDMentor. 
44 \gl. Dolzycka et al. 2019. 
45 Vgl. Helbig und Cortez 2019. 
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fischen Studiengängen. Innerhalb fachspezifischer Studiengänge finden sich diese 
Aspekte besonders in solchen Fachbereichen, in denen die Digitalisierung bereits 
einen großen Einfluss auf Methoden und Praktiken der Forschung hat, andere Diszi- 
plinen sind noch zurückhaltend, Herausforderungen und konkrete Lehrinhalte des 
Datenmanagements zu vermitteln. Beide Arten der Ausbildung könnten von einer 
gegenseitigen Vernetzung profitieren. 

Für forschungsnahe Tätigkeiten im Bereich der infrastrukturellen Planung, der 
Beratung und Unterstützung des FDM eignet sich die Ausbildung im FDM bereits 
auf Bachelor-Niveau, diese findet sich in den grundlegenden Studiengängen der In- 
formationswissenschaft teilweise schon abgebildet. Für forschungsnahe Tätigkeiten 
bestehen zwar Angebote bereits auf Bachelor-Niveau, es überwiegen jedoch (noch) 
dezidierte Stellenangebote im Datenmanagement auf Master-Level. 

Studiengangsangebote wie beispielsweise eine grundlegende Ausbildung auf 
Bachelor-Niveau im FDM mit einer Spezialisierungsmöglichkeit auf Master-Niveau 
bestehen bisher so gut wie nicht. An der Fachhochschule Potsdam kann der Bereich 
FDM/Digitale Sammlungen allerdings im Master als sogenannter „Track“ für eine 
Vertiefung gewählt werden. 

Für ein fachspezifisches FDM und die Ausbildung entsprechender Expertinnen 
und Experten sind zweifelsohne sehr gute Kenntnisse der spezifischen Forschungs- 
methoden und der anfallenden Daten eine Voraussetzung. Jedoch sollte hier bereits 
auf Bachelor-Level eine grundlegende Ausbildung im Bereich des Datenmanage- 
ments beginnen, da bei den meisten Forschungsvorhaben, die häufig teilweise auch 
in Lehrprojekten integriert sind, Daten anfallen. Operative Aspekte überwiegen bei 
dieser Zielgruppe, jedoch gibt es bislang keine dezidierten Vertiefungsmöglichkei- 
ten für ein fachspezifisches FDM. Die Ausbildung in diesem Bereich scheint eher 
durch „learning by doing“ charakterisiert zu sein oder durch die Ausbildung von 
Kompetenzen durch die Anstellung z.B. als Fachreferentinnen und -referenten in 
Informationseinrichtungen. Stellenangebote für fachspezifisches FDM sind derzeit 
auf Master-Niveau ausgerichtet und setzen einen passenden disziplinären Master- 
Abschluss voraus. 

Die Möglichkeit, einen fachübergreifenden, einführenden Kurs zum Thema 
FDM im Bachelorstudium zu belegen - wie an der Universität Bielefeld durchge- 
führt -, könnte zukünftig dazu beitragen, dass Kompetenzen ausgebildet werden 
und der Umgang mit Forschungsdaten als Teil der „alltäglichen“ Forschungstatig- 
keit gewertet wird. Aufbauend auf einem solchen Kurs können sich weitere fachspe- 
zifische Angebote anschließen. 

Im Bereich der Weiterbildung ist die Adressierung von Zielgruppen bereits gut 
umgesetzt. Workshops und Informationsmaterialien werden zielgruppenspezifisch 
erstellt und durchgeführt. Auf Anforderungen und Desideraten aus den Forschungs- 
communities kann auch aufgrund der Wahl geeigneter Lehrformate reagiert wer- 
den, die nicht in Curricula eingebunden sind und keinen Richtlinien unterliegen. 
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Für Trainerinnen und Trainer (Train-the-Trainer) bestehen Konzepte zu zielgrup- 
penspezifischen Ausbildungen allerdings noch nicht. Dies kann allerdings auch 
daran liegen, dass die Hintergründe dieser Zielgruppe zu heterogen sind, um ent- 
sprechende Konzepte zu entwickeln oder aber auch an fehlenden fachspezifischen 
Ausbildungen späterer Trainerinnen und Trainer. 

Die Aus- und Weiterbildungssituation im FDM ist in Deutschland vielfältig und 
höchstens in Ansätzen koordiniert. Gleichzeitig stellt sich die Frage, ob Kompeten- 
zen tatsächlich auf alle Berufsgruppen, die am FDM beteiligt sind oder sein könn- 
ten, gleich verteilt sein müssen. Eine Schärfung von Rollenprofilen und Aufgaben- 
verteilungen innerhalb bestehender Berufsgruppen, angelehnt an internationale 
Entwicklungen, steht bislang noch aus. Auf dieser Grundlage wäre die Einführung 
von deutschlandweit koordinierenden Maßnahmen innerhalb der Curricula-Ent- 
wicklung an den Hochschulen sinnvoll — beispielsweise im Sinne des Curriculum 
4.0 mit einer Integration von Data Literacy als Grundlage für den Umgang mit (For- 
schungs-)Daten, wie vom Stifterverband initiiert. 


Fazit 


FDM erfordert eine Vielzahl von Kompetenzen, die sich an der Grenze zwischen 
fachspezifischer Forschungsleistung und eher fachübergreifende bzw. auf Infra- 
strukturen ausgerichtete Tätigkeiten verorten lassen. Es gibt eine Reihe von vielver- 
sprechenden Ansätzen zu Aus- und Weiterbildung, allerdings lässt eine konsequent 
durchgeplante Qualifizierungsstrategie (äquivalent zur geplanten Dateninfrastruk- 
tur) im Jahr 2020 noch auf sich warten. 

Curricula für das FDM müssen einerseits entsprechend des wachsenden Bedarfs 
an gut ausgebildeten Personen weiterentwickelt bzw. gänzlich neu erarbeitet wer- 
den. Andererseits müssen außerhalb der starren curricularen Systeme in den Hoch- 
schulen andere Möglichkeiten vor allem für die zeitnahe Qualifizierung entwickelt 
werden (z.B. mit Hilfe von Workshops oder Bottom-up-Initiativen wie die Carpen- 
tries). Sicherlich ist dabei nicht zu unterschätzen, dass die Ausbildungseinrichtun- 
gen in verschiedener Hinsicht, z.B. strategisch, finanziell sowie personell, massiv 
investieren müssen. Auch muss dafür Konsens zumindest in Hinblick auf die jewei- 
ligen Qualifizierungsziele und erreichten Fähigkeiten bestehen, damit diese bei (zu- 
künftigen) Arbeitgebern als vertrauenswürdig erachtet werden. 

Auch für die Infrastruktureinrichtungen müssen Anreize geschaffen werden, 
um genug qualifiziertes Personal einstellen zu können. Ein Ansatz dazu wird durch 
die vom RfII geforderten tarif- und arbeitsrechtlichen Handlungsbedarfe formu- 
liert.*° 

Eine Vernetzung unterschiedlicher Ausbildungseinrichtungen und Ausbil- 
dungsformen in koordinierter Art und Weise ist in Deutschland längst überfällig. 
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Neben den föderalen Strukturen sind Ursachen dafür sicherlich auch in noch nicht 
abgeschlossenen Definitionen von Rollen und konkreten Kompetenzen im Bereich 
des FDM zu suchen. Die vom RfII geforderten Qualifizierungsallianzen“’ könnten 
eine große Chance sein, dies umzusetzen. 

Ein weiteres Desiderat stellt perspektivisch die fehlende Vernetzung quer über 
die Bereiche Wissenschaft, Wirtschaft, Kultur und Verwaltung dar. Jeder Bereich für 
sich hat zum Teil bereits Anstrengungen unternommen, die jeweiligen Datenschätze 
teilweise qualitätsgeprüft für eine potenzielle Nachnutzung zur Verfügung zu stel- 
len. Insbesondere die Bemühungen der Städte bzw. der Verwaltungen im Bereich 
der Open-Data-Portale sind hier zu nennen. Allerdings fehlt auch hier ein koordi- 
nierter Ansatz, um den Daten bezüglich ihrer Qualität, Aufbereitung und Beschrei- 
bung durchgängig trauen bzw. diese über mehrere Portale übergreifend nutzen zu 
können. Digitalisierungsstrategien finden sich zum Teil auch im Kulturbereich (z.B. 
3D-Digitalisierung von Artefakten). Allerdings stellen diese Beispiele nur Leucht- 
turm-Initiativen dar. Eine grundsätzliche Vernetzung und Abstimmung über Qualifi- 
zierungsbedarfe über diese Bereiche hinweg stehen noch völlig am Anfang. Qualifi- 
zierungsallianzen zwischen Hochschulen und Universitäten, aber auch zwischen 
Ausbildungsinstitutionen und anderen Bereichen des öffentlichen Lebens könnten 
es ermöglichen, Daten unterschiedlicher Herkunft über Fach- und Domänengrenzen 
hinweg nach zu nutzen und so völlig neue (Forschungs-)Fragestellungen beantwor- 
ten zu können. In diesem Zusammenhang wird es interessant sein zu beobachten, 
inwieweit die Bürgerwissenschaften (Citizen Science) und die Datenstrategie des 
Bundes dafür sorgen, dass sich verschiedene Stakeholder, z.B. über die Definition 
von Data Literacy, Kompetenzprofile, benötigte Fähigkeiten für unterschiedliche 
Rollen im Datenmanagement, Berufsbezeichnungen, Karrierepfade inklusive ein- 
heitlicher Besoldungsstufen, Zuständigkeiten und Verantwortlichkeiten im Bereich 
der Aus-, Fort- und Weiterbildung und Finanzierungsmöglichkeiten etc. abstimmen. 
Denkbar wäre auch, einen Rat für die Qualifizierung im Datenmanagement ins Le- 
ben zu rufen, damit schnell und abgestimmt auf die neuen Herausforderungen re- 
agiert werden kann und dies vor allem auch international kompatibel geschieht. 
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Achim Oßwald 
3.5 Barrieren, Hemmschwellen und 
Gatekeeper 


Abstract: Barrieren - im Sinne fehlender Angebote und Infrastrukturen — oder 
Hemmschwellen - im Sinne erlernter, tradierter Verhaltensweisen - verhindern bis- 
lang häufig die transparente Beschreibung, Bereitstellung und Nachnutzung von 
Forschungsdaten. Um dies zu ändern, sind alle Forschenden durch individuelles 
Handeln, aber auch die Gatekeeper des Wissenschaftsbetriebes gefordert. Letztere 
können durch den Aufbau von Infrastrukturen zur Unterstützung der Forschenden, 
durch finanzielle und personelle Anreize und Erleichterungen bei der praktischen 
Umsetzung des Forschungsdatenmanagements, aber auch durch die strukturell ab- 
gesicherte Belohnung der Aufbereitung und freien Zugänglichkeit von Forschungs- 
daten in Form von wissenschaftlicher Reputation dazu beitragen, dass Barrieren 
entfallen und Verhaltensänderungen die Hemmschwellen marginalisieren. 


Einleitung 


Eigentlich wäre alles so einfach: Wissenschaftlerinnen und Wissenschaftler for- 
schen, dabei nutzen, sammeln oder produzieren sie Forschungsdaten (FD), verse- 
hen diese mit entsprechenden Metadaten und stellen sie über ihnen geeignet 
erscheinende Repositorien zur Nachnutzung unter definierten rechtlichen Bedin- 
gungen zur Verfügung. Die Realität - in Deutschland wie auch international - ist 
jedoch anders: Bislang machen nur wenige Wissenschaftlerinnen und Wissen- 
schaftler ihre Daten frei zugänglich. Die Frage ist: Warum? 

Empirische Untersuchungen und Erfahrungsberichte aus den letzten Jahren ha- 
ben hierfür vielfältige Ursachen deutlich werden lassen: Noch fehlt häufig die sub- 
jektive Bereitschaft und Kompetenz bei den einzelnen Forschenden für die aus wis- 
senschaftlicher wie forschungspolitischer Sicht wünschenswerte systematische 
Erfassung, das Kuratieren und die Bereitstellung von FD zur transparenten Absiche- 
rung guter wissenschaftlicher Praxis. Für die Nachnutzung von FD ist aber beides 
unabdingbar. 

Neben personenbezogenen Gründen zeigt aber auch das Wissenschaftssystem 
mit seinen Interessengruppen und Strukturen noch erhebliche Defizite, den Wandel 
zum gewünschten Forschungsdatenmanagement (FDM) zu befördern: Die grund- 
sätzlichen Vorgaben und formellen Regeln, aber auch die passende Infrastruktur, 
zugeordnete Workflows, kompetenzfördernde Anleitungen oder Beratungen und die 
notwendige rechtlichen Absicherung für eine transparente Bereitstellung und Nach- 


3 Open Access. © 2021 Achim Oßwald, publiziert von De Gruyter. KOE Dieses Werk ist lizenziert unter der 
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nutzung von FD werden erst allmählich den forschungspolitischen Zielsetzungen 
angepasst.! 

Vorreiter bei der praktischen Umsetzung dieser Zielsetzung sind Forschungs- 
kontexte, in denen kooperativ und ggf. auch kollaborativ gearbeitet wird. Häufig ar- 
beiten hier Forschende aus universitären und außeruniversitären Einrichtungen zu- 
sammen, die auf systematisch ausgebaute Forschungsinfrastrukturen zurückgreifen 
wollen und z. T. auch schon können. 

In Fachdisziplinen, die schon lange in solchen Strukturen arbeiten - z.B. Kli- 
maforschung, Astrophysik oder Teilchenphysik -, sind daher die Hemmschwellen 
und Barrieren zur Bereitstellung und Nachnutzung von FD relativ gering.” In ande- 
ren — wie z.B. den Digital Humanities (DH) — wirken sie jedoch noch stärker, ver- 
mutlich aber dort am wenigsten, wo wiederum kollaborativ z.B. in virtuellen For- 
schungsumgebungen gearbeitet wird. Indiz hierfür ist der Umstand, dass gerade 
aus den DH-Forschungsverbünden heraus Lösungen für eine FDM-adäquate Infra- 
struktur entwickelt werden.’ 

Trotz solcher Vorreiter ist FDM für viele Forschende ein von ihnen eingeforder- 
tes Desiderat, dem tradierte Verhaltensweisen, aber auch fehlende Infrastrukturen 
entgegenstehen. Aus dieser Einschätzung leitet sich die Binnenstruktur des vorlie- 
genden Beitrags ab: Er skizziert zuerst aus der Perspektive der einzelnen Forschen- 
den Hinderungsgründe, ihre Forschungsprozesse und die dabei erstellten bzw. er- 
mittelten FD mittels FDM transparent zu machen. Ob diese Hinderungsgründe als 
Hemmschwellen (im Sinne erlernter, tradierter Verhaltensweisen) oder als Barrieren 
(im Sinne fehlender Angebote und Infrastrukturen) wahrgenommen werden, dürfte 
subjektiv z.T. variieren. Zu vermuten ist, dass Hemmschwellen und Barrieren von 
den meisten als nicht weiter differenziertes Konglomerat zur Verhinderung eines of- 
fenen Umgangs mit FD wahrgenommen werden. 

In einem zweiten Schritt werden dann mögliche Maßnahmen angesprochen, 
mit denen — gegliedert nach den jeweiligen Gruppen von Gatekeepern - die Wissen- 
schaftsgemeinschaft(en) mit ihren Institutionen sowie Strukturen und hierbei insbe- 
sondere mit ihren Regularien und ihren Anerkennungssystemen die konkrete Be- 
reitschaft zur Bereitstellung und Nachnutzung von FD befördern können. 


1 Vgl. z.B. Sane und Edelstein 2015, 6-16, sowie diverse Beiträge in diesem Buch. 
2 Vgl. Neuroth et al. 2012, 295-310; Zuiderwijk und Spiers 2019, 231-232. 
3 Vgl. z.B. Cremer, Klaffki und Steyer 2019, 120 f. 
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1 Forschende und ihre Griinde, Daten nicht transpa- 
rent zu machen 


Im Mittelpunkt des Forschungsprozesses stehen die Forschenden als Individuen mit 
ihrer Motivation Lösungen für Forschungsfragen zu finden und mit diesen Lösun- 
gen wissenschaftliches Renommee zu gewinnen. Traditionell stand und steht im 
Forschungsprozess das Individuum und seine durch Kreativität und / oder geduldi- 
ge Analyse auf der Grundlage transparenter methodischer Uberlegungen erzielte 
Leistung im Mittelpunkt. Entsprechend war und ist das Wissenschaftssystem in den 
meisten Bereichen auf Einzelpersonen und die von ihnen erzielten und ggf. erstma- 
lig veröffentlichten Ergebnisse ausgerichtet. Dies gilt in Form der Fokussierung auf 
inspirierende, leitende und organisatorisch verantwortliche Wissenschaftlerinnen 
und Wissenschaftler selbst dort, wo Gruppen von Forschenden unter deren Gesamt- 
verantwortung kooperativ und kollaborativ arbeiten. 

Entsprechend werden normalerweise für die erzielten Ergebnisse wissenschafts- 
bezogene Belohnungen wie Titel, Ehrungen, Positionen und insbesondere For- 
schungsgelder zugeteilt. Mit diesen können die so unterstützten Forschenden dann 
im Idealfall erfolgreich weitere herausragende Leistungen und Ergebnisse erzielen. 
In einem solchen, stark auf persönliche Leistung und Karriere ausgerichteten Sys- 
tem sind FD, die u. U. mühsam und in langwierigen Prozessen erhoben wurden, ein 
Kapital, das nur dann transparent gemacht wird, wenn es schon umfassend ausge- 
wertet und zu Publikationen verarbeitet wurde oder andere Notwendigkeiten be- 
stehen, es bereitzustellen. Dies gilt insbesondere für angehende Wissenschaftlerin- 
nen und Wissenschaftler, die sich im Rahmen von Qualifizierungsarbeiten (z.B. 
Master, Promotion oder Habilitation) sowie Projekten profilieren wollen. Die tradi- 
tionelle Hemmschwelle zu überwinden und FD nicht für sich zu behalten, bedarf 
daher intensiver Motivation. Diese wird ganz wesentlich davon beeinflusst, inwie- 
weit die Bereitstellung der Daten sich in Formen der Anerkennung und Belohnung 
in der Wissenschaftswelt niederschlagt.* 

Die subjektiven, durchaus auch psychologischen Aspekte der bislang erkennba- 
ren Zurückhaltung insbesondere von Forschenden, die nicht im Verbund und kolla- 
borativ arbeiten, erlangen in der Forschung zum FDM deutliche Beachtung. Gleich- 
zeitig sind sie aber auch Gegenstand von internationalen Projektaktivitäten, die 
z.B. im Teilprojekt GO CHANGE der Initiative GO FAIR® angegangen werden. 


4 Vgl. Lucraft et al. 2019, 12-14. 

5 Vgl. z.B. Linek et al. 2017, 1-24. 

6 S. https://www.go-fair.org/go-fair-initiative/go-change/ und den Beitrag von Linne et al., Kap. 3.2 
in diesem Praxishandbuch. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
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Mangelnde Kompetenz und Erfahrung im Umgang mit FD sind immer wieder 
ein zentrales Hindernis, Forschungsprozesse und die dabei gewonnenen bzw. ge- 
nutzten FD im Sinne eines transparenten FDM adäquat zu erfassen und aufzuberei- 
ten. Die entsprechenden Defizite führen dazu, dass die einer Veröffentlichung zu- 
grundeliegenden FD häufig nicht publiziert, also auch nicht intersubjektiv 
überprüft oder ggf. für nachfolgende Forschungen genutzt werden können. Unklar- 
heiten bzgl. dessen, was überhaupt im konkreten Kontext FD sind, Unklarheiten bei 
der Erhebung, der Dokumentation des Vorgehens und der Beschreibung gewonne- 
ner Daten mittels Metadaten sowie rechtliche Unsicherheiten können auch die Be- 
reitwilligsten daran hindern, die Veröffentlichung ihrer FD zu ermöglichen. Jüngste 
Forschungen zeigen, dass 65 Prozent aller Forschenden entsprechenden Beratungs- 
bedarf für sich reklamieren. Sie sehen ihre Mitforschenden z.B. in Fachgesellschaf- 
ten, aber auch Verlage und Bibliotheken in der Pflicht, entsprechende Dienste be- 
reitzustellen.’ Diese subjektive Unsicherheit und die damit verbundenen objektiven 
Defizite konkretisieren sich u.a. in den nachfolgend erläuterten, ausgewählten 
Gründen, seine FD nicht bereit zu stellen.® 


1.1 Verlust der Datenhoheit 


Die Datenhoheit über die selbst erhobenen FD zu verlieren, ist wohl die größte Be- 
fürchtung und damit eine klassische Hemmschwelle von Forschenden: Ihre Daten 
sind aus ihrer Sicht noch nicht hinreichend ausgewertet und in einer nicht aufberei- 
teten, d.h. u.a. ohne erläuternde Metadaten versehenen Form für Dritte nicht ver- 
ständlich. Dies mag z.T. bewusst provoziert werden, denn schließlich sind Dritte 
u.U. Konkurrenten im Wissenschaftsbetrieb und es soll verhindert werden, dass 
diese sich die eigene Vorarbeit zunutze und damit womöglich Karriere machen. 

Eine zumeist unausgesprochene, aber vermutlich gerade bei Qualifizierungsar- 
beiten durchaus berechtigte subjektive Befürchtung kann zudem sein, dass „Schwä- 
chen der Datenerhebung und -analyse sichtbar werden“? oder dass erkennbar wird, 
dass Daten sogar manipuliert sind.'° 

Warum auch immer eine Aufbereitung der Daten unterbleibt: Die Furcht vor 
dem Verlust der Datenhoheit ist bislang ein im Wissenschaftssystem durchaus ak- 


7 Vgl. Lucraft et al. 2019, 18. 

8 Eine viele Aspekte abdeckende Übersicht zu möglichen Gründen, FD nicht zu publizieren, hat 
Kaden 2018 auf der Grundlage einer Diskussion beim Open-Science-Bar-Camp des Leibniz For- 
schungsverbunds Science 2.0 am 12.03.2018 zusammengestellt. 

9 Kaden 2018. 

10 Vgl. zu dieser These die Untersuchung von Wicherts, Bakker und Molenar 2011, den Beitrag von 
Wiarda 2019 sowie insgesamt zu diesem Themenkomplex die fortwährend aktualisierte Sammlung 
zurückgezogener Paper unter https://retractionwatch.com/. 
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zeptiertes Argument. Im Wesentlichen ist es dem großen Publikationsdruck gerade 
der sich in traditioneller Form profilierender Forschenden geschuldet. 


1.2 Fehlender und unzureichend umgesetzter Datenmanagement- 
plan 


Um Daten und ihre Erhebung fiir Dritte nachvollziehbar zu machen, sollten schon 
bei der Planung des Forschungsvorhabens das Konzept der Datenerhebung, die da- 
bei zu erfassenden Metadaten, die Nutzungsanforderungen und -möglichkeiten so- 
wie die damit verbundenen rechtlichen Aspekte in einem Gesamtkonzept, dem sog. 
Datenmanagementplan (DMP), festgehalten werden. Der Aufwand, diesen umzuset- 
zen, ist umso geringer, je friiher und systematischer die Planung und Umsetzung 
erfolgt. So kann ggf. das Erfassen von forschungsdatenbezogenen Metadaten (teil-) 
automatisiert erfolgen. 

Die Erstellung und Umsetzung eines DMP wird wegen entsprechender Anforde- 
rungen der Forschungsförderer!! selbstverständlicher. Dennoch werden insbesonde- 
re Forschungsvorhaben Einzelner häufig mangels Kenntnis des Konzeptes oder we- 
gen des vermeintlich zu hohen Aufwands noch ohne DMP realisiert. Dieses Defizit 
wird erst dann offenbar, wenn weiterführende Forschungsaktivitäten unter Nach- 
nutzung der zuvor gewonnenen Daten anstehen. Dann aber fehlen die die Datener- 
hebung dokumentierenden Metadaten ebenso wie die rechtliche Absicherung zu de- 
ren Nachnutzung (s. u.) in einem weiteren Forschungskontext. 


1.3 Aufwand 


Abhängig vom Forschungsgebiet und den eingesetzten Methoden, aber auch abhän- 
gig von der Regeltreue, mit der die im Datenmanagementplan als notwendig dekla- 
rierten Maßnahmen zur Qualitätssicherung, Beschreibung und dem Kuratieren von 
FD umgesetzt werden, entsteht u. U. ein erheblicher zeitlicher und ggf. auch finanzi- 
eller Aufwand. Dieser wird nachvollziehbarerweise von vielen Forschenden bislang 
häufig noch nicht als integraler Bestandteil, sondern als zusätzlicher Aufwand im 
Rahmen ihrer Forschungsaktivitäten wahrgenommen, der sie vom „eigentlichen 
Forschen“ abhält. 

Die dabei anfallenden Aufgaben sind durchaus umfangreich, wie eine entspre- 
chende Auflistung vor dem Hintergrund praktischer Erfahrungen in der Max-Weber- 
Stiftung deutlich macht: 


11 S. den Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 
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- Anamnese der Daten (durch ein Dateninterview) 

- Appraisal des Datensatzes (Auswahl der Dateien und Informationspakete) 
-  Explikation (Variablenbezeichnung, Abkürzungen) 

- Konversion in standardisierte, nicht-proprietäre Formate (xls in csv) 

- Wahl des Dateiformats und Durchführung der Formatvalidierung (TIFF) 

- Transformation und Strukturierung (Texte in TEI-P5) 

- Automatisierte Anreicherung (Named Entity Recognition) 

- Validierung gegen Standards (FAIR Data Prinzipien) 

- Wahl des Datenrepositoriums (via re3data.org) 

- Ingest (Account, Paketierung, Uploadprozess) 

-  Lizenzvergabe (kompatibel mit der Offen-Definition und ... FAIR-Prinzipien) 
-  Metadatenvergabe (DataCite-Metadata-Schema) 

- Dokumentation (natursprachliche Sammlungsbeschreibung)" 


Die Tragweite unzureichend dokumentierter und kuratierter FD für die Wahrnehm- 
barkeit der erzielten Forschungsergebnisse wird zumeist erst zu spät erkannt. Doku- 
mentation im Nachhinein erweist sich aber als zusätzlich aufwendig. Der Verzicht 
auf eine Veröffentlichung der Daten erscheint dann vordergründig als der einfache- 
re Weg. Dies auch deshalb, weil bislang im Wissenschaftsbetrieb noch häufig die 
textbasierte Publikation allein als hinreichender wissenschaftlicher Output angese- 
hen und anerkannt wird. 

Dabei ist es - abhängig von der Förderorganisation — durchaus möglich, Kosten 
für die Aufbereitung von Daten und für die Nutzung existierender Infrastrukturen 
zu beantragen.” Da solche Anreize bislang nur bei manchen Forschungsförderern 
zugänglich waren, bedarf es hier umso mehr eines grundlegenden Bewusstseins- 
wandels, um in allen Bereichen die Dokumentation und das Kuratieren von FD als 
selbstverständlichen und unabdingbaren Teil jeglicher Forschung zu verstehen. 


12 Cremer, Klaffki und Steyer 2019, 121-122 - ohne die Fußnotennummern im Original. Auf das von 
dieser Autorengruppe vorgeschlagene Konzept der Unterstützung durch eine sog. Forschungsdaten- 
redaktion wird später im Zusammenhang mit möglichen Maßnahmen von Verlagen eingegangen. 
13 So beispielsweise bei der Deutschen Forschungsgemeinschaft (DFG): „Projektspezifische Kos- 
ten, die im Rahmen eines wissenschaftlichen Projekts bei der Aufbereitung von Forschungsdaten 
für eine Anschlussnutzung bzw. für die Überführung von Forschungsdaten in existierende Infra- 
strukturen entstehen, können mit dem Antrag bei der DFG eingeworben werden.“ Deutsche For- 
schungsgemeinschaft 2020. Ein grundsätzlich ähnliches Verständnis leitet die internationale Initia- 
tive der Forschungsförderer, die sich im sog. Plan S zusammengeschlossen haben (s. https://www. 
coalition-s.org/principles-and-implementation/). 
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1.4 Unzureichende Klärung rechtlicher und ethischer Aspekte 


Die unzureichende rechtliche Absicherung der Veröffentlichung und Nachnutzung 
von FD erweist sich häufig dann als Barriere zur Bereitstellung von FD, wenn die 
Forschenden am Ende eines Vorhabens zur Publikation der Daten aufgefordert wer- 
den. 

Grundsätzlich bedarf es zumindest nach deutscher Rechtslage einer expliziten 
Erlaubnis zur Nutzung erhobener Daten für das konkrete Vorhaben ebenso wie zu 
einer Nachnutzung dieser Daten in einem möglichen anderen Forschungskontext. 
Ohne eine solche schriftlich vorliegende Erklärung, eine sog. „informierte Einwilli- 
gung“!* derjenigen, über die Daten erhoben werden (bzw. ihrer gesetzlichen Vertre- 
ter), dürfen Daten rein rechtlich noch nicht einmal in einem Repositorium aufge- 
nommen werden. Bei nicht anonymen oder nicht vollständig anonymisierten bzw. 
anonymisierbaren Daten, die konkreten Personen als Aussage oder Verhalten zuge- 
ordnet werden k6nn(t)en, bestehen weitere rechtliche Anforderungen u.a. hinsicht- 
lich der Persönlichkeitsrechte der Beteiligten. Und schließlich sind urheberrechtli- 
che Fragen z.B. bezüglich der Bilder oder Grafiken relevant, die im Vorfeld einer 
Veröffentlichung und ggf. erfolgender Nachnutzung geklärt werden müssen.” Sind 
die rechtlichen Anforderungen nicht vollständig erfüllt, unterbleibt häufig die Pu- 
blikation der Daten. Das Resultat ist u.a. die fehlende Nachprüfbarkeit und Nach- 
nutzung von Forschungsergebnissen. 

In vielen Forschungszusammenhängen kommen aber auch ethische Fragen! 
zum Tragen, z.B. die Integrität der Forschenden oder die Würde bzw. Selbstbe- 
stimmtheit von Datengebenden, über die sich Forschende bewusst werden sollten.” 

Zu beiden Themenfelder werden zwar bei der Erstellung eines DMP konkrete 
Aussagen eingefordert, faktisch fühlen sich aber die meisten Forschenden hier ver- 
unsichert. Entsprechend hoch ist - im Sinne einer Barriere — der diesbezügliche Be- 
ratungsbedarf, der allerdings bislang häufig nur unzureichend erfüllt wird. 


6 


14 Vgl. beispielhaft die Hinweise des Verbundes Forschungsdaten Bildung unter https://www.for- 
schungsdaten-bildung.de/einwilligung?la=de sowie die Angaben bei Jensen 2012, 65-67. 

15 S.a. den Beitrag von Lauber-Rönsberg, Kap. 1.4 in diesem Praxishandbuch. 

16 S. den Beitrag von Rösch, Kap. 1.5 in diesem Praxishandbuch. 

17 Vgl. die Leitlinie 10 in den DFG-Leitlinien zur Sicherung guter wissenschaftlicher Praxis (Deut- 
sche Forschungsgemeinschaft 2019) sowie beispielhaft den Hinweis des Verbundes Forschungsda- 
ten Bildung unter https://www.forschungsdaten-bildung.de/ethik?la=de. 
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2 Verantwortung und mögliche Maßnahmen seitens 
der Stakeholder 


Aus der subjektiven Perspektive der Forschenden scheitert das Kuratieren und die 
Bereitstellung von FD also vordergründig zumeist an den o. g. Ursachen. Z.T. wur- 
zeln diese im Wissenschaftssystem und seinen über Jahre entwickelten Regeln und 
Regularien sowie in den ggf. nicht verfügbaren Infrastrukturen. Das Kuratieren und 
die Bereitstellung kann durch die Veränderung der Regeln und Regularien von FD 
jedoch gefördert, gefordert und belohnt werden. Durch das Zusammenspiel aller Be- 
teiligten würde möglich, was in der Literatur schon seit Jahren diskutiert wird: Be- 
reitgestellte Hardware- und Softwarelösungen ermöglichen selbstverständlich wer- 
dende Arbeitsprozesse. Die proaktive Beratung der Forschenden und unterstützen- 
de Begleitung der FDM-relevanten Prozesse erfolgt durch Akteurinnen und Akteure, 
die nah an den Forschenden agieren und mit ihren Perspektiven und Interessen ver- 
traut sind. Peers, Fachgesellschaften und die organisatorisch wie finanziell fördern- 
den Institutionen schaffen Anreize bzw. fordern und belohnen die Bereitstellung so- 
wie Veröffentlichung von gut kuratierten FD und deren Nachnutzung unter nach- 
vollziehbaren Lizenzbedingungen. 

Wie Stakeholder mit welchen Maßnahmen zur gewünschten Entwicklung und 
damit zur Überwindung und Beseitigung von Barrieren und Hemmschwellen beitra- 
gen können und sollten, wird nachfolgend dargestellt. Betrachtet werden dabei im 
Einzelnen jene Stakeholder, denen hierbei bislang der größte Einfluss zugerechnet 
wird, nämlich: 

-  Politik/Forschungsförderorganisationen, 
-  Hochschulen/außeruniversitäre Forschungseinrichtungen, hier insbesondere 

—  Leitungsgremien, 

-  Infrastruktureinrichtungen und 

- Fakultäten, 

-  Fachgesellschaften, 
- Verlage. 


2.1 Maßnahmen der Politik und der Forschungsförderer 


Bislang ist die Bereitstellung von FD auch deshalb noch keine Selbstverständlich- 
keit, weil eine Melange aus Hemmschwellen und Barrieren insbesondere im Publi- 
kationsmarkt dies behindert. Ordnungspolitische Vorgaben sowie damit verbunde- 
ne Empfehlungen und Maßnahmen sollen dies ändern. 

Die staatlicherseits u.a. über die Forschungsförderorganisationen schon seit 
mehreren Jahren stimulierten alternativen Formen zur Verbreitung von Forschungs- 
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ergebnissen - Stichwort Open Access — wurden naheliegenderweise nach dem Kon- 

zept Open Data auf FD ausgedehnt und bilden einen wesentlichen Aspekt der sog. 

Offenen Wissenschaft (Open Science). 

Dabei werden mit der freien Zugänglichkeit von FD mehrere ordnungspolitische 

Zielsetzungen verfolgt: 

- Die Motivation und das Bewusstmachen, die Nachnutzung der Daten aus For- 
schungsergebnissen als Teil eines iterativen, im besten Fall offenen For- 
schungsprozesses zu sehen; 

- soweit realisierbar die Wiederholbarkeit und damit auch Nachprüfbarkeit von 
Forschungssettings und der dabei gewonnenen Daten zum Standard zu erhe- 
ben; 

- eine Effizienzsteigerung von nationalen Forschungsaktivitäten durch deren Be- 
schleunigung und zunehmende internationale Vernetzung sowie 

- eine Beschränkung der Gesamtkosten des Publikationssystems, dessen originä- 
re Funktion wieder stärker in den Fokus gebracht wird. 


Mit der Umsetzung dieser wissenschaftspolitischen Zielsetzungen in praktische 

Maßnahmen sind die Forschungsförderorganisationen wie z.B. die DFG'® oder auch 

Forschungsgemeinschaften wie die Leibniz- bzw. Helmholtz-Gemeinschaft betraut. 

Sie haben hierfür - in Analogie zu ihren Pendants in anderen Ländern sowie auf 

der EU-Ebene - unterschiedliche Anreiz- und Steuerungsmechanismen”’ entwickelt, 

Z.B. 

- die Vorgabe, DMP zu einem obligatorischen Bestandteil von Förderanträgen zu 
erklären und damit FD und deren längerfristige Verfügbarkeit in den Blick zu 
nehmen; 

- die finanzielle Unterstützung der Aufbereitung von FD im Hinblick auf eine Ver- 
öffentlichung; 

- die finanzielle Unterstützung einer (Daten-)Publikation als solches; 

- die Vorgabe, dass Ergebnisse einer von ihnen geförderten Forschungsaktivität 
inklusive der zugehörigen Daten Open Access bzw. den FAIR-Prinzipien folgend 
veröffentlicht werden müssen, um eine möglichst breite, im Idealfall weltweite 
Zugänglichkeit sicherzustellen; 

- die Einbeziehung von Datenveröffentlichungen in die Bewertung von For- 
schungsleistungen.”° 


18 S. den Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 

19 Vgl. u.a. die - allerdings unvollständige — Übersicht unter https://www.forschungsdaten.org/ 
index.php/F%C3%Bérderorganisationen. 

20 Vgl. Deutsche Forschungsgemeinschaft 2015, 2. 
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Gerade diese zuletzt genannte Maßnahme zielt darauf, die etablierten Gatekeeper- 
Netzwerke aus Verlagen, bedeutenden Wissenschaftlerinnen und Wissenschaftlern 
als Begutachtende und Herausgebende sowie den bewertenden Gremien bei Geld- 
und Postenvergabe an Nachwuchswissenschaftlerinnen und Nachwuchswissen- 
schaftler zu durchbrechen. Ihr Hebel ist dabei, in höherem Maße die Datenveröf- 
fentlichung als solches sowie deren Qualität als relevant zu erachten. 

Die genannten Einzelmaßnahmen seitens der Forschungsförderorganisationen 
korrespondieren mit der vom Rat für Informationsinfrastrukturen”! (RfII) mit seinen 
strukturpolitisch analysierenden und stimulierenden Papieren initiierten Idee einer 
Nationalen Forschungsdateninfrastruktur (NFDI).”* Mit der NFDI soll dem deutschen 
Wissenschaftssystem ein „bundesweites, verteiltes und wachsendes Netzwerk“? 
von Diensten und Beratungsangeboten für das FDM in den Jahren 2019-2028 bereit- 
gestellt und mit jährlich bis zu 90 Millionen Euro Fördergeldern unterstützt wer- 
den.“ Ausgangspunkt dieser großangelegten strukturpolitischen Fördermaßnahme 
auf der nationalen Ebene ist die Erkenntnis, dass es — korrespondierend zu ähnli- 
chen Maßnahmen auf europäischer Ebene in Form der European Open Science 
Cloud (EOSC)” - neben den o. g. stimulierenden Einzelmaßnahmen u.a. konzertier- 
ter Aktivitäten für institutionsübergreifende Strukturen bedarf, um insbesondere 
disziplinbezogene Besonderheiten des FDM aufgreifen zu können und so gezielt die 
etablierten strukturellen Barrieren zu überwinden. Die internationale Anschlussfä- 
higkeit der bundesdeutschen Wissenschaft soll dabei auch durch die Herausbildung 
einer neuen Datenkultur gefördert werden. 

Auch auf der Ebene der Bundesländer sind - zeitlich z. T. sehr versetzt — Förder- 
maßnahmen initiiert worden.” Schon im Jahre 2014 verdeutlichte Baden-Wiirttem- 
berg im Rahmen eines entsprechenden Förderkonzeptes” die Relevanz des Hand- 
lungsfeldes FDM. Andere Bundesländer wie z.B. Hessen im Jahr 2016,8 Nordrhein- 


21 S. http://www.rfii.de/de/start/. 

22 RfII 2016, RfII 2017 und RfII 2018. 

23 RfII 2016, 2. 

24 Vgl. hierzu die Erläuterungen unter https://www.gwk-bonn.de/themen/weitere-arbeitsgebiete/ 
informationsinfrastrukturen-nfdi/ sowie die dort verlinkte Bund-Länder-Vereinbarung vom 
26.11.2018. 

25 Vgl. für weiterführende Informationen die offizielle Website der EU unter https://ec.europa.eu/ 
research/openscience/index.cfm?pg=open-science-cloud. 

26 Einen Überblick gibt die Seite https://www.forschungsdaten.info/praxis-kompakt/fdm-in-den- 
bundeslaendern/. 

27 Vgl. für Details „E-Science. Wissenschaft unter neuen Rahmenbedingungen“, http://mwk.ba- 
den-wuerttemberg.de/fileadmin/redaktion/m-mwk/intern/dateien/pdf/Forschung/066_PM_Anla- 
ge_E-Science_Web.pdf. 

28 Vgl. Brand, Stille und Schachtner 2018. 
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Westfalen in den Jahren 2017 und 2019” oder Brandenburg 2019°° zogen zwischen- 
zeitlich nach und legten umfangreiche Fördermaßnahmen zum fachlichen Aus- 
tausch über geeignete Maßnahmen sowie zur Strukturentwicklung auf. Hierfür er- 
fahren die länderfinanzierten Hochschulen als jene Einrichtungen, die in den meis- 
ten Fällen Erstansprechpartner für Forschende und damit ein zentraler Bestandteil 
der NFDI sein sollen, zunehmende Aufmerksamkeit.?! 


2.2 Maßnahmen der Hochschulen / außeruniversitären 
Forschungseinrichtungen 


Leitungsgremien 


In den 2010er Jahren griffen die Hochschulleitungen das Thema FDM auf und verab- 
schiedeten hierzu in der Hochschulrektorenkonferenz (HRK)” zwei grundlegende 
Positionspapiere.” „Als Kernaufgaben wurden darin unter anderem die Entwick- 
lung einer Strategie zum FDM, die Verabschiedung einer universitätsweiten For- 
schungsdaten-Policy und die Weiterentwicklung von Kompetenzen benannt.“ Ziel 
der so angestoßenen Maßnahmen ist es, 


dass die Forscherinnen und Forscher ihrer Hochschule und des gesamten deutschen Wissen- 
schaftssystems eine Umgebung vorfinden, die ihnen ein effizientes, unkompliziertes und recht- 
lich abgesichertes Management der digitalen Forschungsdaten ermöglicht und damit die 
Grundlage für die wissenschaftliche Arbeit schafft.” 


Als eine besondere Herausforderung wird dabei gesehen, dass Hochschulen - an- 
ders als die auf ausgewählte Themenfelder fokussierten außeruniversitären For- 
schungseinrichtungen — thematisch breit ausgerichtet und daher mit ganz unter- 
schiedlichen Bedarfen** sowie Datenkulturen in den verschiedenen Fachdisziplinen 
konfrontiert sind. 


29 Nach der „Landesinitiative NFDI der digitalen Hochschule NRW“ wurde im September 2019 
„fdm.nrw - Landesinitiative für Forschungsdatenmanagement“ auf den Weg gebracht; vgl. 
https://www.fdm.nrw. 

30 Einen Überblick zu dem von 11/2019-10/2020 laufenden Projekt „Forschungsdatenmanagement 
in Brandenburg: Technologien, Kompetenzen, Rahmenbedingungen“ (FDM-BB) gibt https://www. 
forschungsdaten.org/index.php/FDM-BB. 

31 Vgl. Curdt et al. 2018, 2-3. 

32 S. https://www.hrk.de/. 

33 S. HRK 2014; HRK 2015. 

34 Helbig et al. 2019, 21. 

35 HRK 2014, 3. 
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Diese politische Aufforderung wird an den Hochschulen bislang sehr unter- 
schiedlich umgesetzt. Erst allmählich scheint in den Hochschulleitungsgremien 
deutlich zu werden, dass es hierzu mehr als formaler Beschlüsse und der Verab- 
schiedung einer FD-Policy” bedarf. Die NFDI-Initiative hat diesbezüglich bei for- 
schungsorientierten Institutionen zusätzlichen Druck erzeugt, dessen Nebeneffekt 
u.a. die Bildung von hochschulinternen FDM-Gruppen aus den Infrastrukturein- 
richtungen der Hochschulen und Vertreterinnen und Vertreter von im FDM beson- 
ders aktiver Fachdisziplinen ist. Der erwünschte Kulturwandel wird also sowohl 
von außen als auch oben stimuliert. 

Im Zusammenspiel mit den Fakultäten haben die Hochschulleitungen auch auf 
der curricularen Ebene die Möglichkeit, das Thema FDM zumindest in Masterstudi- 
engängen und Promotionskolloquien als obligatorisch zu verankern. Damit schaffen 
sie die Grundlage, dass die nachwachsenden Forschenden schon frühzeitig für das 
Thema sensibilisiert und mit praktischem Know-how zum Thema ausgestattet sind, 
um es in ihren eigenen Aktivitäten dann ganz selbstverständlich umzusetzen.?® 

Auch in den außeruniversitären Forschungseinrichtungen, die — je nach Fach- 
disziplin — z. T. schon seit Jahren im FDM aktiv sind, ist der Sachstand fachdisziplin- 
bezogen unterschiedlich. Für ihre internationalen Kooperationen und Förderanträ- 
ge erweisen sich etablierte FDM-Strukturen zunehmend als Voraussetzung und 
entsprechend selbstverständlich sind dort FDM-bezogene Vorgaben der Leitungs- 
gremien für Workflows und kompetenzbildende Strukturen geworden.” 


Infrastruktureinrichtungen 


In den Hochschulen sind insbesondere die Infrastruktureinrichtungen Bibliothek 
und Rechenzentrum (beide z.T. sehr divers benannt) für die Umsetzung des FDM 
und damit die Reduzierung von Hemmschwellen und Barrieren wichtig. Im IT-Be- 
reich stehen die campusweite Bereitstellung von Software, z.B. zur Erstellung eines 
DMP oder zur mittel- bis langfristigen Speicherung bzw. Archivierung von FD, sowie 


36 Vgl. hierzu z.B. die in HRK 2015, 16-20, genannten unterschiedlichen „Szenarien des For- 
schungsdatenmanagements“. 

37 Beispiel für direkte Umsetzung der HRK-Überlegungen ist die Universität Münster — vgl. Meyer- 
Doerpinghaus und Tröger 2015. Zum aktuellen Stand beim Thema Datenpolicies vgl. die Angaben 
unter forschungsdaten.org: Data Policies; https://www.forschungsdaten.org/index.php/Data_Poli- 
cies. 

38 S. die Beiträge von Fühles-Ubach und Albers, Kap. 3.1 sowie Rothfritz et al., Kap. 3.4 in diesem 
Praxishandbuch. 

39 Vgl. z.B. die programmatische Erklärung der Helmholtz-Gemeinschaft von 2016 „Digitale For- 
schungsdaten offen zugänglich machen“ und die hieraus entwickelte Helmholtz-Data Federation 
(HDF), s. https://www.helmholtz.de/forschung/information-data-science/helmholtz-data-federati- 
on-hdf. 
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der Aufbau von Strukturen zur leichten Datenablage im Vordergrund. Seitens der 
Bibliotheken spielt insbesondere das prozessorientierte Know-how zur Vermittlung 
von Kompetenzen im Umgang mit FD, deren Beschreibung mittels Metadaten sowie 
sgf. operative Unterstützung bei diesen Aktivitäten eine wesentliche Rolle. In wel- 
chem Maße solche infrastrukturellen Unterstützungsmaßnahmen geleistet werden 
können, hängt u.a. von der jeweiligen personellen Ausstattung, dem dann tatsäch- 
lich vorhandenen FDM-generischen und disziplinbezogenen Know-how sowie der 
Kooperationsbereitschaft bzw. einer gelungenen Arbeitsteilung zwischen diesen Ak- 
teurinnen und Akteuren ab. Tendenziell am erfolgreichsten scheinen jene Hoch- 
schulen zu sein, in denen das Thema FDM in einem Kompetenzcluster konzentriert 
wurde, so dass Ansprechpartnerinnen und -partner sowie Kompetenztragende für 
die Forschenden klar identifizierbar sind.“ Insbesondere einführende Informatio- 
nen wie z.B. sog. Coffee Lectures oder Schulungsmaßnahmen, die generisch oder 
disziplinbezogen angeboten werden und im Idealfall auch von anderen Hochschu- 
len nachgenutzt werden können,“ beschleunigen diesen Veränderungsprozess, 
werden aber weitgehend ins Leere laufen, wenn nicht entsprechende technische 
und organisatorische Infrastrukturangebote seitens der Hochschulen (allein oder im 
Verbund) oder Forschungseinrichtungen (vgl. z.B. den Verbund Forschungsdaten 
Bildung) bereitgestellt werden.”? 


Fakultäten 


Bei der Auswahl der wissenschaftlichen Mitarbeitenden wie auch von neuen Profes- 
sorinnen und Professoren haben Fakultäten und ihre Gremien eine zentrale Rolle. 
Sie agieren auf der Grundlage von hochschulinternen Regularien wie Berufungs- 
oder Fakultätsordnungen, in denen die formalen Auswahlkriterien für zu Berufende 
formuliert sind. Auf dieser Grundlage werden dann in Berufungsverfahren konkrete 
Anforderungen an Bewerberinnen und Bewerber entwickelt. Inwieweit hierbei auch 
die Veröffentlichung von FD - ergänzend zu klassischen Textpublikationen - eine 
Rolle spielt, wird nicht zuletzt auf dieser Ebene entschieden. Hier kann die in einer 
Data Policy formulierte hochschulweite Absichtserklärung zur Einbeziehung von 
FD-Veröffentlichungen in der Personalauswahl konkret in die Tat umgesetzt wer- 
den, wobei für eine Übergangsphase von mehreren Jahren dies vermutlich noch op- 
tional bleiben wird. Prinzipiell jedoch kann sich hier ein Mentalitätswandel über 


40 Vgl. die positiven Erfahrungen aus Erlangen-Nürnberg (Putnings und Teichert 2017) oder in 
Delft, die Mancilla et al. 2019 berichten. 

41 S. Beitrag von Helbig, Kap. 3.3 in diesem Praxishandbuch. 

42 Vgl. z.B. die Aktivitäten in Aachen (Schmitz und Politze 2018; Hausen und Windeck 2018) oder - 
insbesondere auch bzgl. der nachnutzbaren Schulungskonzepte - Berlin-Brandenburg (Helbig et al. 
2019). 
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den Stellenwert von Daten und ihrer Publikation konkretisieren. Dieser wird ver- 
mutlich durch die Einbeziehung des Publikationstyps „Forschungsdaten“ bei der 
Fakultätsevaluierung und ggf. damit verbundener sog. Leistungsorientierter Mittel- 
vergabe beschleunigt. 

Gleiches gilt im Prinzip auch für die Auswahlgremien außeruniversitärer For- 
schungseinrichtungen, bei denen der hohe Anteil von befristet beschäftigten For- 
schenden sowie das häufig projektorientierte und in internationalen Kontexten an- 
gelegte Forschen eine noch schnellere Einbeziehung von Datenpublikationen in die 
Beurteilung wissenschaftlicher Reputation ermöglicht. Inwieweit hier und im enge- 
ren Hochschulkontext tatsächlich geänderte Praktiken zum Tragen kommen, bleibt 
einer gesonderten Untersuchung vorbehalten. 


2.3 Maßnahmen der Fachgesellschaften 


In diversen Fachdisziplinen haben die jeweiligen Fachgesellschaften als kollektive 
Vertretung der jeweiligen Fachdisziplin wie auch fachlich herausragender Kollegin- 
nen und Kollegen einen maßgeblichen Einfluss auf die fachliche Kommunikations- 
und Publikationskultur ihrer Mitglieder. Durch Anreize sowie die erklärte Forde- 
rung an Forschende, im Kontext ihrer Publikationen auch die hierzu relevanten FD 
bereitzustellen, beseitigen sie u.U. tradierte Praktiken und reduzieren, bestenfalls 
entfernen sie sogar Hemmschwellen in der Publikationspraxis. Durch die Einbezie- 
hung eingeforderter und bereitgestellter FD in das Begutachtungsverfahren z.B. für 
Beiträge zu Fachtagungen sowie die selbstverständliche Möglichkeit, FD in diesem 
Kontext, in einer vom Verband getragenen Fachzeitschrift oder einem kooperieren- 
den Repositorium zu veröffentlichen, fällt zudem eine strukturelle Barriere. So er- 
folgt für Vortragende bzw. Publizierende wie für Rezipienten die selbstverständliche 
Zuordnung von FD zu Publikationen. Zudem sind weiterführende Informations- 
dienste, wie z.B. das offene Verlinken der einer Publikation zugrundeliegenden Da- 
ten“ oder die — ggf. synoptische — Aggregation und Auswertung solcher Daten für 
Metaanalysen möglich. 

Fachgesellschaften haben insofern sowohl die Möglichkeit, die Publikationskul- 
tur und damit die von informellen und subjektiven Wahrnehmungen geprägten 
Hemmschwellen zu reduzieren bzw. zu beseitigen, als auch - sofern sie selbst An- 
bieter entsprechender Publikationsstrukturen sind — entsprechende Barrieren zu be- 
seitigen. 


43 Vgl. z.B. die Untersuchung im Rahmen des Projektes Options40A durch Strecker und Pampel 
2019, auch wenn diese nur einen Teil der relevanten Fachdisziplinen abdeckt. 

44 Vel. z.B. die Überlegungen und Ergebnisse im Projekt InteractOA unter https://www.zbmed.de/ 
forschen/abgeschlossene-projekte/interactoa/. 
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2.4 Maßnahmen der Verlage 


Verlage tragen durchaus auch Verantwortung bei der Veränderung der Veröffentli- 
chungspraxis von FD, da sie — je nach Bedeutung und Anzahl der von ihnen heraus- 
gegebenen Zeitschriften — die gewünschte Veränderung zu einer transparenten Be- 
reitstellung von FD mitgestalten können. Schließlich benötigen Gutachterinnen und 
Gutachter eingereichter Beiträge Zugang zu jenen Daten, die die Grundlage der zu 
publizierenden Aussagen ausmachen. Dezidierte Open-Access-Verlage, die häufig 
als einzelnen Hochschulen verbundene oder dort ausgegründete Verlage entstan- 
den sind, kommt dabei eine wichtige initiale bzw. die Entwicklung befördernde Rol- 
le zu, in dem sie u.a. mit hochschuleigenen oder fachspezifischen Repositorien ko- 
operieren. 

Die von Verlagen vorgegebenen Richtlinien und Praktiken” sollten im Idealfall 
nicht zeitschriftenspezifisch sein, sondern für alle Zeitschriften des Verlages so ge- 
staltet sein, dass sie die Workflows, Speicherorte und den konkreten Umgang mit 
FD klarstellen. Dies entlastet die Herausgeberinnen und Herausgeber, jeweils zeit- 
schriftenspezifische Regelungen zu formulieren, auch wenn der Umgang mit FD 
z. T. noch disziplinspezifisch variiert. Zudem wird so deutlich, welche Linie ein Ver- 
lag beim Thema FD verfolgt. Solche Richtlinien zur Datentransparenz können nach 
Mellor 2018 drei Ebenen zugeordnet werden: 


Level 1, Disclosure. Articles must state whether or not data underlying reported results are 
available and, if so, how to access them. 

Level 2, Mandate. Article must share data underlying reported results in a trusted repository. If 
data cannot be shared for ethical or legal constraints, authors must state this and provide as 
much data as can be reasonably shared. 

Level 3, Verify that shared data are reproducible. Shared data must be made available to a 
third party to verify that they can be used to replicate findings reported in the article.“6 


Dabei wird sofort erkennbar, dass Ebene 1 faktisch hinter dem zurückbleibt, was im 
Sinne der Vorgaben der meisten Forschungsfördereinrichtungen als Forderung im 
Raum steht.“ Das Geschäftsmodell von Verlagen muss durch solche Vorgaben kei- 
neswegs beeinträchtigt werden, denn wo FD begleitend zu Textpublikationen bereit- 


45 Vgl. z.B. die nicht mehr ganz aktuelle Übersicht „Social Science Journals that have a research 
data policy“ unter https://jordproject.wordpress.com/project-data/social-science-journals-that- 
have-a-research-data-policy/. Sturges et al. 2014 haben schon frühzeitig durch eine Untersuchung 
im Rahmen des JoRD-Projektes auf entsprechende Defizite hingewiesen. 

46 Mellor 2018. 

47 Eine Auswertung der Richtlinien zur Datentransparenz bei den vier großen Verlagen Elsevier, 
Springer Nature, Taylor & Francis und Wiley durch Mellor im Jahr 2018 hat ein sehr heterogenes Bild 
ergeben. Insofern darf die bislang erzielte oder zu erwartende Wirkung der Datenpolicies einzelner 
Zeitschriften wie auch Verlage nicht überschätzt werden, wie z. B. eine Untersuchung von Houtkoop 
et al. 2018 für die Fachdisziplin Psychologie gezeigt hat. 
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gestellt werden, bleibt dabei offen. Disziplinspezifische Daten-Repositorien kom- 
men dafür genauso in Frage wie generische Serviceangebote, wie sie z.B. von RA- 
DAR‘! bereitgehalten werden. Die Vielfalt möglicher Publikationsangebote wird 
durch re3data“”, dem „Registry of Research Data Repositories“ transparent. 

Weitergehende Überlegungen und Richtlinien, die u.a. auch Vorgaben für die 
Bereitstellung von Programmcode, die Zitationsweise, die Registrierung geplanter 
Untersuchungen (besonders für industrienahe Forschung wünschenswert) sowie 
die Wiederholung von Studien einbeziehen, können weitere Formen der Datenof- 
fenheit ermöglichen. Diese sog. „Transparency and Openness Promotion Guideli- 
nes“? wurden 2015 vom Center for Open Science?! veröffentlicht und sind nach des- 
sen Angaben in mehr als 1000 Zeitschriften weltweit implementiert. 

Verlage, aber auch publikationsunterstützende Einheiten in Infrastrukturein- 
richtungen und Verbünden könnten allerdings schon heute durch die Einrichtung 
einer Forschungsdatenredaktion die Publikation von FD sowohl Forschende, als 
auch die klassischen Zeitschriftenredaktionen durch die Bereitstellung hochspezia- 
lisierten Know-hows entlasten. Das von Cremer, Klaffki und Steyer am Beispiel der 
Geisteswissenschaften entwickelte Konzept (eine „Forschungsdatenredaktion [...] 
übernimmt zentrale Aufgaben im Publikationsprozess“°) könnte somit synergetisch 
Hemmschwellen und Barrieren reduzieren bzw. beseitigen. 

Deutlich wird, dass gerade dezidiert dem Thema Offenheit verschriebene Verla- 
ge und Organisationen die Aufbereitung und Veröffentlichung von FD ganz wesent- 
lich vorantreiben und damit zunehmend Anforderungen aus der Wissenschaft erfül- 
len könnten. 


Fazit 


Noch sind die Forschenden in den meisten Fachdisziplinen zumeist nicht hinrei- 
chend auf die Veröffentlichung und Nachnutzung von FD bzgl. Kompetenzen und 
Motivation vorbereitet. Aber auch bei den Infrastrukturen sind erhebliche Defizite — 
insbesondere im Hochschulbereich - offenbar. Die Hemmschwellen und Barrieren 
in Bezug auf die Veröffentlichung von FD sind insofern vielgestaltig und prohibitiv. 


48 S. https://www.radar-service.eu. 

49 S. http://re3data.org/. 

50 Vgl. für Details https://cos.io/top bzw. für einen Kurzüberblick https://osf.io/4kdbm. 

51 Das Center for Open Science (COS) ist eine forschungsnahe Infrastrukturorganisation zur Unter- 
stützung der Open Science-Entwicklung, die u.a. die Plattform OSF zu Begleitung von transparen- 
ten Forschungsprozessen entwickelt und bereitstellt (vgl. https://cos.io/our-products/osf). David 
Mellor ist dort Director of Policy Initiatives des COS (Stand Oktober 2020). 

52 Cremer, Klaffki und Steyer 2019, 121. 
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Im Einflussbereich der diversen Gatekeeper sind vielfältige Möglichkeiten er- 
kennbar, die vorhandenen strukturellen Barrieren sowie weiterhin bestehenden 
Hemmschwellen zur Veröffentlichung und freien Nachnutzbarkeit von FD zu redu- 
zieren oder sogar mittel- bis langfristig zu beseitigen. Hierzu bedarf es nicht nur der 
unabdingbaren Forderungen, Vorgaben, Richtlinien und Policies, sondern konkre- 
ter Infrastrukturen und insbesondere einer aktiven Veränderungsbereitschaft der 
handelnden Akteurinnen und Akteure an den jeweiligen Schaltstellen. Nur so kann 
der angestrebte Mentalitätswandel erreicht und die Praxis offener Wissenschaft Rea- 
lität werden. Der Weg dorthin scheint allerdings z.T. noch lang und mühsam zu 
sein. 
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Markus Putnings 
4 Datenmanagement 


Abstract: Das (Forschungs-)Datenmanagement zeichnet sich durch eine systemati- 
sche Planung und Durchfiihrung von entsprechenden datenbezogenen Aufgaben 
unter Berticksichtigung von relevanten Kontextfaktoren rechtlicher, ethischer etc. 
Natur aus. Im Gegensatz zur populären Lebenszyklusmetapher können dabei Abläu- 
fe ineinander übergehen, nichtsequentiell ablaufen oder, je nach Art und Qualität 
der Daten, auch gänzlich wegfallen. 


1 Begriffsabgrenzung und Scope 


Das komplette Praxishandbuch widmet sich im Grunde dem (Forschungs-)Datenma- 
nagement. Während die Schwerpunkte der vorherigen Abschnitte zwar auf den Kon- 
textfaktoren des Datenökosystems, des jeweiligen Datenmarktes und der instituti- 
ons-, fach- oder personenspezifischen Datenkultur legen, beeinflussen diese 
dennoch maßgeblich das individuelle (Forschungs-)Datenmanagement (s. Abb. 1). 
„Datenmanagement“ bedeutet in unserer Interpretation stets ein planvolles, metho- 
disches Vorgehen von Individuen, Gruppierungen (z.B. Arbeits-, Projektgruppen) 
und Institutionen, im Gegensatz zu einer unreflektierten Behandlung von Daten: 


Daten, Informationen und Wissen sind wertvolle Ressourcen, die geplant, organisiert und ver- 
wertet werden müssen. Im Umfeld eines Unternehmens spricht man hier allgemein von Ma- 
nagementfunktionen.! 


Dieses Management (d. h. Planungs- und Verwaltungshandeln) gilt jedoch nicht nur 
für den Industrie- und Wirtschaftssektor, sondern sektorübergreifend auch für den 
Wissenschaftssektor, öffentlichen Sektor sowie die Biirgerwissenschaft.* Oftmals 
werden diese Managementfunktionen und -aufgaben anhand einer Lebenszyklus- 
metapher angeordnet und beschrieben: 


Daten, Informationen und Wissen können entstehen und vergehen, sie durchleben einen Zy- 
klus, in dem sie erzeugt, gespeichert, auf verschiedene Arten benutzt, weitergegeben und auch 
wieder entfernt werden.? 


1 Bodendorf 2006, 2. 
2 S. Beitrag von Putnings, Kap. 1in diesem Praxishandbuch. 
3 Bodendorf 2006, 2. 


3 Open Access. © 2021 Markus Putnings, publiziert von De Gruyter. KMA] Dieses Werk ist lizenziert unter 
der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-017 
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Datenökosystem, -markt, -kultur Datenökosystem, -markt, -kultur 


Datenerzeugung 
bzw. Datensuche & - 
beschaffung 


Datensichtung, 
Bewertung und 
Auswahl 
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bzw. Datensuche & - 
beschaffung 
Datentransfer und Datensichtung, 


externe Nach- Bewertung und 
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Datenarchivierung 
Datenablage 
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© W Datennutzung, 


Datenlöschung Aufbereitung und 


Datennutzung, 
Aufbereitung und 
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Aktualisierung bzw. Anpassung des DMPs 


Abb. 1: Datenmanagement - Planung und Durchführung. 


Die Metapher fand primär durch das populäre DCC Curation Lifecycle Model” Ver- 

breitung. Es gibt in Teilen jedoch Kritik an der Dominanz der Lebenszyklusmeta- 

pher.’ Die Struktur des Praxisbuches betont einige Aspekte, die in der Fachliteratur 
teils etwas kurz kommen: 

- Die Bedeutung nicht nur der Durchführung, sondern auch der bewussten Vor- 
abplanung der Datenmanagementaufgaben, sei es mit oder ohne Datenmanage- 
mentplan (DMP),° 

- die zu berücksichtigenden Kontextfaktoren aus Datenökosystem, -markt und 
-kultur und 

- der nichtsequentielle bzw. teils sich verzweigende Ablauf, mit Möglichkeiten 
des partiellen Teilens, Publizierens, Veränderns und Löschens von Daten. 


4 S. https://www.dcc.ac.uk/about/digital-curation. Letztes Abrufdatum der Internet-Dokumente ist 
der 15.11.2020. 

5 S. z.B. https://www.zbw-mediatalk.eu/de/2018/09/forschungsdatenmanagement-abhaengigkeit- 
von-der-lebenszyklusmetapher-und-alternativen/. 

6 Wobei ein DMP natürlich in vielen Fällen, vor allem bei datenintensiven Projekten, zu empfehlen 
wäre. 
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2 Planung und Durchfiihrung des Datenmanage- 
ments 


Es gilt, sich in der Praxis jeweils konkret klar zu machen, was im Kontext von Daten 
geplant und organisiert werden muss.’ Im Rahmen von Förderanträgen können z.B. 
teils Kosten für die Aufbereitung, Archivierung, die Publikation und die (Nach-)Nut- 
zung von Daten in Repositorien und Datenmärkten beantragt werden; entspre- 
chend muss sehr frühzeitig, noch beim Forschungsdesign? und beim Schreiben von 
Projektanträgen, an solche Punkte gedacht und diese eingeplant sowie ggf. in ei- 
nem DMP schriftlich fixiert werden. 

In Abhängigkeit vom jeweiligen Datenökosystem sollten zudem unter anderem 
(bundes-)landerspezifische Datenschutzregelungen, die Einbeziehung institutionel- 
ler Datenschutzbeauftragter, fachspezifischer Ethikkommissionen etc. berücksich- 
tigt werden sowie, wenn später ein konkreter Datenmarkt bedient werden soll, des- 
sen Anforderungsspezifikation.” 

Wie die ineinandergreifenden Kreise in Abb. 1 verdeutlichen sollen, sind die 
Managementaufgaben teils miteinander verbunden, ergänzen sich gegenseitig oder 
fallen, je nach Daten(-qualität) teils auch gänzlich weg." Planung und Durchfüh- 
rung sind dabei eng verzahnt, da Projekte stetigen Veränderungsprozessen unter- 
worfen sind. Manche Förderer, wie der Schweizerische Nationalfonds zur Förderung 
der wissenschaftlichen Forschung (SNF) fordern deshalb, den DMP eines geförder- 
ten Projekts zu festgelegten Zeitpunkten zu aktualisieren." 


7 Vgl. z.B. Netscher und Jensen 2019 für einen sehr detaillierten, praxisnahen Überblick über die 
systematische Planung und Umsetzung eines Datenmanagements im fachspezifischen Kontext der 
Sozialwissenschaften. 

8 S. z.B. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 

9 Hier können zusätzlich auch mögliche Synergieeffekte, spätere Weiterverwertbarkeiten etc. mit- 
bedacht werden, vgl. Büttner, Hobohm und Müller 2011, 16. 

10 Z.B. die Beachtung der Vokabulare für DCAT-AP.de im öffentlichen Sektor, s. https://www.dcat- 
ap.de/, https://www.govdata.de/standardisierung und der Beitrag von Schieferdecker, Kap. 2.3 in 
diesem Praxishandbuch. 

11 Als konkrete Beispiele: wenn die Bewertung z.B. klar zeigt, dass alle Daten speicherungswürdig 
sind, erfolgt unter Umständen später keine entsprechende Selektion zur Archivierung. Bei Sichtung 
personenbezogener Informationen könnten jedoch im Rahmen einer speziellen Aufbereitung die 
Datensätze anonymisiert bzw. pseudonymisiert oder Löschfristen vorgesehen werden müssen. Teils 
entfällt, z.B. bei besonders sensiblen Daten, auch die Datenpublikation. 

12 S. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 
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Neben Vorgaben gibt es zur Unterstiitzung diverse Hilfsmittel bzw. Empfehlun- 
gen von Förderern zu einem bestmöglichen Datenmanagement." Auch einige Initia- 
tiven engagieren sich hierfür." 


Fazit 


Wie gezeigt (s. Abb. 1), ist die Planung von Forschungsdaten sowie des entsprechen- 

den Managements von hoher Bedeutung.” Bei der anschließenden Durchführung 

des (Forschungs-)Datenmanagements liegen maßgebliche Schwerpunkte 

- auf der Datenqualität (entsprechende Sichtung, Bewertung, Auswahl, nötige 
Aufbereitung und Anreicherung etc.)!° und 

- auf der Datenablage, der entsprechenden -kuration sowie finaler Langzeitarchi- 
vierung.” 


Die zu beachtenden Einflussfaktoren auf die Planung und Durchführung sind dabei 
vielfältig und können z.B. dem Datenökosystem, Datenmarkt oder auch der Daten- 
kultur entstammen.'* Zudem können für das Datenmanagement diverse Softwares 
sowie Ergebnisse und Erkenntnisse aus bestehenden Projekten und Initiativen 
nachgenutzt werden.!? Das Datenmanagement umfasst auch die Beschäftigung mit 
möglichen Datentransfers (z.B. Teilen, Publizieren) und mit der Nachnutzung von 
Daten über das Projektende hinaus und dient damit wiederum der potentiellen 
Suchmöglichkeit sowie leichteren Datenbeschaffung Dritter (s. Abb. 1, gesonderte 
Pfeile).”° 


13 S. Beitrag von Putnings, Kap. 1.3, sowie von Iglezakis und Hermann, Kap. 4.4 in diesem Praxis- 
handbuch. 

14 Vgl. z.B. https://bausteine-fdm.de/index, https://www.forschungsdaten.info/, https://www.for- 
schungsdaten.org/index.php/Kategorie:Data_Management. 

15 S. Beitrag von Dierkes, Kap. 4.1 in diesem Praxishandbuch. 

16 S. Beitrag von Kiraly und Brase, Kap. 4.3 in diesem Praxishandbuch. 

17 S. Beitrag von Weber und Piesche, Kap. 4.2 in diesem Praxishandbuch. 

18 S. Kap. 1 bis 3 in diesem Praxishandbuch. 

19 S. Beitrag von Iglezakis und Hermann, Kap. 4.4 in diesem Praxishandbuch. 

20 Da beides jedoch, bei einer ,,reinen“ Archivierung (z. B. bei besonders sensiblen Daten) entfallen 
kann, wird dies in Kap. 5 im Praxishandbuch gesondert behandelt. 


4 Datenmanagement —— 301 


Literatur 


Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 


Bodendorf, Freimut. 2006. Daten- und Wissensmanagement. 2., aktualisierte und erweiterte Aufla- 
ge. Springer-Lehrbuch. Berlin, Heidelberg: Springer. doi:10.1007/3-540-28682-9. 

Büttner, Stephan, Hans-Christoph Hobohm und Lars Müller. 2011. „Research Data Management.“ In 
Handbuch Forschungsdatenmanagement, hg. v. Stephan Büttner, Hans-Christoph Hobohm 
und Lars Müller, 13-24. Bad Honnef: Bock u. Herchen. https://opus4.kobv.de/opus4-fhpots- 
dam/files/192/1.1_Research_Data_Management.pdf. 

Netscher, Sebastian und Uwe Jensen. 2019. „Forschungsdatenmanagement systematisch planen 
und umsetzen.“ In Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten, hg. 
v. Uwe Jensen, Sebastian Netscher und Katrin Weller, 37-55. Leverkusen-Opladen: Barbara 
Budrich. doi:10.3224/84742233.04. 


Jens Dierkes 
4.1 Planung, Beschreibung und Dokumen- 
tation von Forschungsdaten 


Abstract: Forschungsdaten sind ein zentraler Bestandteil von Forschungsprozessen 
und riicken zunehmend in den Fokus der wissenschaftlichen Kommunikation. Da- 
bei gibt es eine Reihe von Anforderungen von verschiedenen Agierenden an das 
Forschungsdatenmanagement. Zum Zwecke der Sicherung der guten wissenschaftli- 
chen Praxis, aber auch um die interne/offene Nachnutzung, die Referenzierung 
oder Reproduzierbarkeit zu ermöglichen, ist ein planvoller Umgang mit den For- 
schungsdaten nötig. Im folgenden Kapitel werden der Forschungsprozess und der 
Datenlebenszyklus eingeführt und die darin enthaltenen Schritte der Planung und 
Dokumentation beschrieben. Dabei spielen auf der einen Seite Metadaten eine ent- 
scheidende Rolle, auf der anderen Seite aber auch das Zusammenspiel, im Sinne 
einer Aufgabenteilung und dem Zusammenbringen unterschiedlicher Kompetenzen, 
zwischen den verschiedenen Stakeholdern. Dies gilt insbesondere für die Forschen- 
den und die forschungsunterstützenden Dienstleister. 


1 Einleitung 


Um die vielfachen Anforderungen an Forschungsdaten zu erfüllen, ist ein struktu- 
rierter und systematischer, kurz ein planvoller Umgang mit diesen erforderlich. Als 
Referenzwerke im deutschsprachigen Raum können die Arbeiten von Büttner, Ho- 
bohm und Müller! sowie Ludwig und Enke? herangezogen werden. In diesem Kapi- 
tel werden wesentliche Aspekte beleuchtet, wie die Beschreibung und Dokumentati- 
on von Forschungsdaten. Damit können die Daten auch von Dritten verstanden und 
es kann ein Kontext hergestellt werden. Neben u.a. der Einhaltung der Leitlinien 
zur Sicherung der guten wissenschaftlichen Praxis (Kodex)? und der Reproduzier- 
barkeit ist dies gerade für die Nachnutzung der Forschungsdaten in anderen Kon- 
texten (interdisziplinäre Forschungsfragen, wie z.B. in der Klimaforschung) von 
sroßer Bedeutung. Digitale Arbeitsweisen und Methoden unterscheiden sich zwi- 


1 Vgl. Büttner, Hobohm und Müller 2011. 

2 Vgl. Ludwig und Enke 2013. 

3 S. https://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/gwp/index.html. Letztes 
Abrufdatum der Internet-Dokumente ist der 15.11.2020. 


3 Open Access. © 2021 Jens Dierkes, publiziert von De Gruyter. [EX] Dieses Werk ist lizenziert unter der 
Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-018 
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schen den einzelnen Disziplinen.“ Diese Diversität spiegelt sich auch in dem Um- 
gang mit Forschungsdaten wider.’ 


Machbarkeitsstudie 

—— Forschungsidee —— Problembereich 

neuesten definieren 
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bleiben 
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Projektdesign 
Kooperationen 
Fördergelder 
beantragen 
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Datensammlung 
Analyse 
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Abb. 1: Darstellung des Forschungsprozesses, der nicht-linearen Entwicklung von Forschungspro- 
jekten und den zahlreichen Stufen, bei denen Daten gesammelt werden (basierend auf Jahnke und 
Asher 2012, 10) 


m~~ Daten 


er 


Prasentation 


Publikation 


Die (schriftliche) Planung des Umgangs mit Forschungsdaten während einer Pro- 
jektphase und darüber hinaus wird mittlerweile von vielen Forschungsförderern 
gefordert.° Die daraus resultierenden Datenmanagementpläne (DMP) sollen doku- 
mentieren, dass sich die Beteiligten des Forschungsprojektes Gedanken über die an- 
fallenden Forschungsdaten, die Datentypen, die Menge an Daten und deren Spei- 
cherung, Sicherheitsaspekte, Dokumentation der Verarbeitungsschritte, mögliche 
Nachnutzungsszenarien und insbesondere auch über die dafür notwendigen techni- 
schen und personellen Ressourcen gemacht haben. 


4 Vgl. Meyer und Schroeder 2015, 197-208. 
5 Vgl. Borgman 2015, 81-200. 
6 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 
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2 Prozesse und Akteure 


2.1 Prozesse und Lebenszyklen 


Sowohl Forschung als auch der Umgang mit Forschungsdaten lassen sich als Pro- 
zesse bzw. Lebenszyklen verstehen.’ Dies hilft, Aufgaben des Forschungsdatenma- 
nagements (FDM) gewissen Phasen der Prozesse zuzuordnen. Abb. 1 zeigt eine Dar- 
stellung des Forschungsprozesses. Hierbei fallt auf, dass Daten nicht nur in einer 
bestimmten Phase eines Projektes gesammelt werden, sondern zu ganz unterschied- 
lichen Zeiten anfallen. Jahnke, Asher und Keralis beschreiben, dass es sein kann, 
dass Daten bzw. Verfahren zur Verarbeitung von Daten bereits im Vorfeld einer Pro- 
jektforderung entwickelt werden, diese aber im Laufe des Projektes modifiziert wer- 
den.® Kooperationspartner stoßen zum Projekt dazu und bringen ihre eigenen For- 
schungsdaten ein. Manchmal kann es bis in die aktive Forschungsphase hinein dau- 
ern, bis Daten in systematischer Form verarbeitet werden. Oder das Projekt 
entwickelt sich in eine ganz andere Richtung. Forschende können z.T. nicht ab- 
schätzen, welche Daten in Zukunft nützlich sein könnten. Das führt oftmals zu einer 
Unsicherheit darin, welche Daten und Metadaten (kontextuelle Daten) bewahrt wer- 
den sollen. 

Obwohl der Forschungsprozess keine einfache lineare Aneinanderreihung von 
kategorisierbaren Aktivitäten ist, ist der Zugang über den Datenlebenszyklus sinn- 
voll, weil damit wesentliche Phasen des FDM und damit verbunden Aufgaben, Rol- 
len und Verantwortlichkeiten adressiert werden.? Eine stärker auf den Datenlebens- 
zyklus ausgerichtete Darstellung zeigt die Abb. 2. 

Neben den Aufgaben und Aktivitäten, die einzelnen Phasen zuzuordnen sind, 
gibt es Themenbereiche, die als Querschnittsthemen in allen Phasen von Bedeutung 
sind. Hierzu gehören die Bereiche Organisation, Recht, Finanzierung, Metadaten 
und Identifikatoren.'° Eine weitere Sichtweise ist das sog. Data Curation Continuum 
von Treloar, Groenewegen und Harboe-Ree mit einem Update von Treloar und 
Klump.” Hierbei werden eher Nutzungsprofile und damit verbundene Kuratierungs- 
aufgaben betrachtet. Forschungsdaten entstehen häufig durch Aktivitäten einzelner 
Forschender oder Gruppen (entspricht der „privaten Domäne“). Diese werden in 
weiteren Schritten in Kooperationen geteilt (entspricht der „Gruppendomäne“). Je 
nach Art der Daten und Ziele des Forschungsvorhabens werden die Daten oder Teile 
davon in die dauerhafte Domäne verschoben, wo eine (quasi-)6ffentliche Nachnut- 


7 Vel. z.B. Borgman 2019, 3-6; Jahnke, Asher und Keralis 2012, 9-11. 

8 Vgl. Jahnke, Asher und Keralis 2012, 9. 

9 Vgl. Michener 2015; Ludwig und Enke 2013, 14-18. 

10 Vgl. Ludwig und Enke 2013, 16-17. 

11 Vgl. Treloar, Groenewegen und Harboe-Ree 2007; für das Update vgl. Treloar und Klump 2019. 
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zung möglich wird (entspricht der „Publikationsdomäne“).'? Diese zwei Sichtweisen 
können genutzt werden, um mit den Agierenden und Stakeholdern über Erwartun- 
gen, Aufgaben, Rollen und Verantwortlichkeiten zu sprechen. 


1.Planen N 
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| beschreiben 
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Abb. 2: Datenlebenszyklus nach Michener (vgl. Michener 2015) 


2.2 Stakeholder 


Im FDM gibt es zahlreiche Sichtweisen und Interessengruppen, die in komplexer 

Art und Weise zusammenspielen.” Dazu gehören: 

- Vertreterinnen und Vertreter der akademischen Gemeinschaft, 

- die Universitätsleitung, 

- professionelle Dienstleister mit Interesse am FDM, wie z.B. Bibliotheken, Re- 
chenzentren, IT- und Forschungsadministratorinnen und -administratoren, 

-  Forschungsforderer, 

- wissenschaftliche Communities, 

— kommerzielle Partner (z.B. Verlage). 


Es ist nicht einfach, diese Sichtweisen voneinander losgelöst zu betrachten. Der Fo- 
kus in diesem Kapitel liegt bei den Forschenden und forschungsunterstützenden 
Dienstleistern (Informationsinfrastruktureinrichtungen). 


12 Vgl. z.B. Klar und Enke 2013, 13-57. 
13 Vgl. Cox und Verbaan 2018, 71. 
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2.3 Rollen 


Die Herausforderung in einem Forschungsprojekt oder bei der Entwicklung einer 
unterstiitzenden Infrastruktur liegt nun darin, Rollen und Aufgaben zu ermitteln 
und zu definieren, Arbeitsabläufe und digitale Werkzeuge weiterzuentwickeln oder 
neue zu designen und zu etablieren. Dabei gibt es viele Möglichkeiten, Rollen und 
Aufgaben zu verteilen. Im Zuge immer komplexerer Forschungsvorhaben und der 
Anforderungen an die Informationsinfrastruktur scheint eine Arbeitsteilung not- 
wendig.” Arbeitsteilung kann hier insbesondere die Zusammenarbeit von Forschen- 
den und Infrastruktureinrichtungen bedeuten. Beispiele sind Sonderforschungsbe- 
reiche der Deutschen Forschungsgemeinschaft (DFG), die explizit Infrastrukturent- 
wicklung erlauben.” Dies kann dann in Kooperation mit einem Rechenzentrum 
und/oder einer Bibliothek erfolgen.'® 

Zentrale Rollen nehmen Datenproduzierende und Datennutzende sowie die In- 
frastruktureinrichtungen und die Institution ein. Tab. 1 nennt die zentralen Rollen, 
ihre Rechte, Verantwortlichkeiten sowie mögliche Beziehungen zu anderen Rollen 
bzw. Agierenden. 


Tab. 1: Rollen, Rechte und Verantwortlichkeiten beim FDM’7 


Rolle Rechte Verantwortlichkeiten Beziehungen zu 
Forschende/Datenpro- Erstnutzung Daten während des der Institution als An- 
duzierende anerkannt werden Projektes managen gestellte 
Training und Beratung gute wissenschaftliche der Fachcommunity 
erhalten Praxis erfüllen den Infrastruktureinrich- 
Förderer und institutio- tungen 
nelle Anforderungen der Förderinstitution 
beachten 
Daten für Nachnutzung 
vorbereiten 
Forschende/Datennut- Daten nachnutzen zu Lizenzbedingungen den Infrastruktureinrich- 
zende können einzuhalten tungen als den Datenlie- 


hochqualitative Meta- 
daten zu Einschätzung 
erhalten 


die Datenerzeugenden 
zu zitieren 

abgeleitete Daten ma- 
nagen 


feranten 
den Institutionen als Da- 
tenlieferanten 


14 Vgl. z.B. Cremer, Engelhardt und Neuroth 2015; Pampel, Bertelmann und Hobohm 2010; Treloar 
und Wilkinson 2008; Lyon 2007, 43-52; Brand & Dierkes 2020. 
15 Hierzu zählen z.B. Sonderforschungsbereiche, in denen sogenannte INF-Teilprojekte zur Ent- 
wicklung von Informationsinfrastuktur beantragt werden können. S. https://www.dfg.de/foerde- 
rung/programme/koordinierte_programme/sfb/antragsteller/programmelement_inf/index.html. 

16 Vgl. Curdt et al. 2019, 65; Cremer, Engelhardt und Neuroth 2015. 
17 Basierend auf Abb. 3 bei Pampel, Bertelmann und Hobohm 2010, 11; Tab. 1 in Lyon 2007, 9. 
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Rolle 


Datenmanager (sowohl 
im Forschungsvorha- 
ben als auch auf insti- 
tutioneller Seite) 


Rechte 


anerkannt werden 
(z. B. Ko-Autorenschaft) 


Verantwortlichkeiten 


Management der Daten 
auf Koordinierungse- 
bene 


Beziehungen zu 


den Datenerzeugende 
dem Data Librarian 
der Institution 

dem Datenzentrum 


Data Librarian 


anerkannt werden 
(z. B. Ko-Autorenschaft) 


FDM-Arbeitsabläufe 
fachnah begleiten 
Entwicklung von 
Standards 


den Datenerzeugenden 
der Datenmanagerin/ 
dem Datenmanager 
der Institution 

dem Datenzentrum 


Institution 


darf eine Kopie der 
Daten erhalten 


Vorgabe der internen 
FDM-Policy 
Management der Daten 
auf mittelfristiger 
Basis 

Einhaltung der guten 
wissenschaftlichen 
Praxis 


Ko-Finanzierung zentra- 


ler Infrastruktur 


den Forschenden als Ar- 
beitgeber 

den Infrastrukturexper- 
tinnen und -experten 
(Rechenzentrum, Biblio- 
thek usw.) 


Rechenzentrum/Biblio- 
thek/Kompetenzzen- 
trum 


anerkannt werden 

durch Forschende 

Rückhalt durch die 
Institution 


Bereitstellung von 
Training und Beratung 
zur Unterstützung der 
Forschenden 

Fördern eines Repo- 
sitorium-Dienstes 
Bereitstellung nach- 
haltiger Infrastruktur 


den Forschenden als Da- 
tenproduzierenden und 
-nutzenden 

der Institution 

der Datenmanagerin/ 
dem Datamanager 


Hier wird deutlich, dass FDM Teamarbeit ist. Im Forschungs- bzw. Datenlebenszy- 
klus kommen die einzelnen Agierenden zusammen und tragen gemeinsam dazu 
bei, dass die Daten entsprechend nachhaltig verwaltet werden. Forschende sind 
nicht allein, wenn es darum geht, geeignete Maßnahmen zu ergreifen, um entspre- 
chende Metadaten zu den entsprechenden Zeitpunkten zu erfassen und aufzuberei- 
ten. 

Für ein Forschungsvorhaben sind nach Michener folgende zehn Fragen rele- 
vant, die für eine sinnvolle Datenstrategie beantwortet werden sollten:!® 
- Was sind die Anforderungen der Förderorganisationen zum FDM?” 
— Welche Daten werden gesammelt? 
— Wie werden die Daten organisiert? 
- Wie werden die Daten dokumentiert??? 


18 Vgl. Michener 2015. 
19 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 
20 S.a. Beitrag von Dierkes, Kap. 4.1 in diesem Praxishandbuch. 
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- Wie wird die Datenqualität gewährleistet?” 

— Wie sieht die Datenspeicherungs- und Archivierungsstrategie aus 

- Wie wird mit Daten im Forschungsvorhaben und dariiberhinausgehend umge- 
gangen (Daten-Policy)? 

— Wie werden die Daten disseminiert? 

— Welche Rollen und Verantwortlichkeiten gibt es? 

- Wie sieht ein realistisches Budget für das FDM aus? 
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Diese Fragen können in Verbindung mit dem Lebenszyklus oder dem Domänenmo- 
dell Forschenden wie auch Infrastruktureinrichtungen die Tür zu einem strukturier- 
ten Umgang mit Forschungsdaten im jeweiligen Forschungsvorhaben öffnen. 

Im Folgenden wird auf die Bereiche Planung, Beschreibung und Dokumentati- 
on von Forschungsdaten näher eingegangen. Details zu (Metadaten-)Datenqualitat, 
infrastruktureller Lösungen und Archivierung bzw. langfristiger Verfügbarmachung 
von Forschungsdaten sind Themen nachfolgender Kapitel. 


3 Planung 


Ein wesentlicher Aspekt des Planens — besonders bei der Konzeption und der An- 
tragstellung - ist für alle Beteiligten (Stakeholder), das ganze Forschungsvorhaben 
hinsichtlich des Umgangs mit Forschungsdaten über ihren gesamten Lebenszyklus 
in den Blick zu nehmen. Es geht darum, möglichst frühzeitig wesentliche Aspekte 
bzw. Herausforderungen des Umgangs mit den Daten im Forschungsprojekt zu 
identifizieren und zu berücksichtigen.” In der Regel sollen dabei die FDM-Rahmen- 
bedingungen, die durch Förderinstitutionen,”* durch Fachgesellschaften,”° Fachver- 
lage,” durch Gesetzgebung” oder andere institutionelle Ebenen (z.B. Daten-Polici- 


21 S.a. Beitrag von Brase und Kiräly, Kap. 4.3 in diesem Praxishandbuch. 

22 S.a. Beitrag von Weber und Piesche, Kap. 4.2 in diesem Praxishandbuch. 

23 Vgl. z.B. Leendertse, Mocken und Suchodoletz 2019. 

24 S. z.B. Bundesministerium für Bildung und Forschung, https://www.bildung-forschung.digital/ 
de/forschungsdatenmanagement-2835.html, DFG https://www.dfg.de/foerderung/antrag_gutach- 
ter_gremien/antragstellende/nachnutzung_forschungsdaten/, Horizon 2020 Programm der Europäi- 
schen Union, https://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting- 
issues/open-access-dissemination_en.htm. 

25 S. z.B. Richtlinien zum Umgang mit Forschungsdaten in der Biodiversitätsforschung, https:// 
www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/richtlinien_forschungsda- 
ten_biodiversitaetsforschung.pdf; Bereitstellung und Nachnutzung von Forschungsdaten in der So- 
ziologie: Stellungnahme des Vorstands und Konzils der DGS, https://www.dfg.de/download/pdf/ 
foerderung/antragstellung/forschungsdaten/dgs_stellungnahme_forschungsdaten.pdf. 

26 S. z.B. https://journals.plos.org/plosone/s/data-availability. 

27 Vgl. z.B. die europäische Datenschutz-Grundverordnung oder das deutsche Gentechnikgesetz. 
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es an Hochschulen,” Promotionsordnungen) vorgegeben werden, eingehalten wer- 
den. Obwohl die Planung des Umgangs mit Forschungsdaten häufig noch als zu- 
sätzlicher administrativer Aufwand gesehen wird, lohnt sich ein planvoller Umgang 
mit Forschungsdaten.” Auch macht FDM dann Sinn, wenn es nicht vorrangig um 
die mittlerweile häufig geforderte Publikation und Nachtnutzung von Forschungs- 
daten in der oben genannten Publikationsdomäne geht. Ein Beispiel sind Daten, die 
in der Arbeitsgruppe eines Lehrstuhls anfallen und die strukturiert sowie gut doku- 
mentiert gesichert werden sollen, damit beispielsweise sukzessive aufeinander auf- 
bauende Dissertationen effektiv und effizient realisiert werden können. Neben der 
Selbstverpflichtung der Wissenschaft zur Sicherung der guten wissenschaftlichen 
Praxis? findet eine internationale Entwicklung zur Stärkung von Transparenz und 
Reproduzierbarkeit im Sinne von Open Science” statt. Die FAIR-Prinzipien® als eine 
Komponente von Open Science” stellen hierbei eine Art Leitfaden dar, um For- 
schungsergebnisse, auch im Sinne von Maschinenlesbarkeit, nachnutzbar zu ma- 
chen. Jedoch hängt die Art der Umsetzung auch in besonderem Maße von den Ge- 
pflogenheiten und Anforderungen der jeweiligen Fachgebiete ab. 


3.1 Datenmanagementplan 


Zurzeit wird das Thema Planung des FDM in Forschungsvorhaben in der Förder- 
landschaft noch recht uneinheitlich behandelt. Es zeigt sich ein Spektrum von ein- 
fachen Hinweisen zum FDM über Empfehlungen zum Umgang mit Forschungsdaten 
inklusive der Möglichkeit dezidierte Mittel fürs FDM zu beantragen, bis hin zu kon- 
kreten Anforderungen, auf die in einem DMP eingegangen werden soll. Der DMP ist 
ein mitunter formales Dokument, das sowohl aus allgemeingültigen Fragen zum 
Umgang mit Forschungsdaten als auch solche, die sich aus den Anforderungen er- 
geben, besteht. Dazu gibt es umfassende Fragenkataloge wie z.B. die WissGrid- 
Checkliste” und Vorlagen, die neben Themen und Fragen auch eine Form vorge- 
ben.” 


28 S. https://www.forschungsdaten.org/index.php/Data_Policies. 

29 Z.B. Goodman et al. 2014. 

30 S. https://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/gwp. 

31 Vgl. Boulton et al. 2012, 7-12. 

32 FAIR steht für Findable, Accessible, Interoperable, Re-usable, vgl. Wilkinson et al. 2016. 

33 S. Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 

34 Vgl. Ludwig und Enke 2013. 

35 Zwei Beispiele sind der DMP des Horizon 2020 Förderprogramms, s. https://ec.europa.eu/rese- 
arch/participants/data/ref/h2020/gm/reporting/h2020-tpl-oa-data-mgt-plan_en.docx, und die Vor- 
lage der e-Infrastructures Austria Initiative, s. http://phaidra.univie.ac.at/0:459774. 
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Daneben gibt es eine Reihe digitaler Werkzeuge, mit denen sich DMP automa- 
tisch erstellen lassen. Etablierte Beispiele im englischsprachigen Raum sind das 
DMPTool des California Digital Curation Centers” und DMPonline des Digital Cura- 
tion Centers.” Diese Tools enthalten gängige Fragenkataloge und erlauben zudem 
eigene Kataloge zu hinterlegen und kollaboratives Arbeiten. Ein interessantes Bei- 
spiel im Bereich FAIR Open Science ist der Data Stewardship Wizard.” Diesem Tool 
liegt ein komplexes, erweiterbares Wissensmodell zugrunde.” Ganz ähnlich entwi- 
ckelt sich zurzeit der Research Data Management Organizer (RDMO)“ für den 
deutschsprachigen Raum.“ Hier liegt der Fokus auf dem aktiven Datenmanage- 
ment. Wie eingangs erwähnt ist der Forschungsprozess und damit auch die Planung 
des FDM komplex und ein nichtlinearer, i.d.R. iterativer Prozess. Daher macht es 
Sinn die digitalen Werkzeuge wie RDMO kontinuierlich einzusetzen und den Pla- 
nungsstand regelmäßig zu aktualisieren, ganz im Sinne eines „lebenden Doku- 
ments“. Diese Vorgehensweise wird mittlerweile auch von einigen Förderorganisa- 
tionen in ihren Programmen wie EU-Horizon 2020 und dem European Research 
Council (ERC) erwartet. Damit kann auch auf dieser Ebene eine Transparenz für die 
Nachvollziehbarkeit geschaffen werden. Die Wahl des geeigneten Werkzeuges 
hängt von mehreren Faktoren ab. Dazu zählen die unterstützten Sprachen, die Ver- 
fügbarkeit von spezifischen Fragenkatalogen sowie die Verfügbarkeit von lokalen 
bzw. institutionellen Angeboten. Beratungsangebote machen häufig deutlich, dass 
Forschende lokale Angebote bevorzugen, bei denen die in den DMP enthaltenen Da- 
ten auf Servern der Institution gespeichert werden. 

Bisher sind DMP im Wesentlichen von Menschen lesbare Dokumente. Eine 
neuere Entwicklung geht in die Richtung der Maschinenlesbarkeit.” Hier wird es 
den beteiligten Agierenden (Stakeholdern) einfacher méglich gemacht, Erfahrungen 
und Informationen über Forschungswerkzeuge und Systeme hinweg auszutauschen 
und DMP in existierende Arbeitsabläufe einzubetten. Teile von DMP können auto- 
matisch generiert und geteilt werden, womit administrativer Aufwand verringert 
und die Qualität von Informationen in einem DMP erhöht werden. Mögliche Vorteile 
für einige der oben genannten Stakeholder sind nach Miksa et al.:* 

-  Forschende: Ermöglicht die Vernetzung mit Expertinnen und Experten während 
eines Forschungsprojektes, um Beratung und Unterstützung für das Datenma- 
nagement zu erhalten. Automatisierte Prozesse können die Erstellung von DMP 


36 S. https://dmptool.org. 

37 S. http://www.dcc.ac.uk/dmponline. 
38 S. https://ds-wizard.org. 

39 S. https://github.com/ds-wizard/ds-km. 
40 S. https://rdmorganiser.github.io. 

41 Vgl. Neuroth et al. 2018. 

42 Z.B. Miksa et al. 2019. 

43 Vgl. Miksa et al. 2019. 
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erleichtern, andere dazu dienen, DMP zu aktualisieren, die Datensicherung zu 
optimieren und die Berichterstattung zu automatisieren. DMP stellen auch eine 
bedeutende Informationsquelle fiir die Planung und Durchführung von Experi- 
menten dar. 

—  Infrastrukturbetreiber: Informationen können zwischen Systemen ausgetauscht 
und müssen nicht mehrfach eingegeben werden; sie können von den entspre- 
chenden Beteiligten im Namen der Forschenden aktualisiert (was auch die Qua- 
lität der Informationen verbessert) und für die Prozessoptimierung aggregiert 
werden. 

— Mitarbeiterinnen und Mitarbeiter der Forschungsunterstützung: Sie können die 
Qualität der in einem DMP enthaltenen Informationen beurteilen und Feedback 
geben. Automatisierte Benachrichtigungen an zentralen Stellen (z.B. Förde- 
rungszusage, Datenhinterlegung, Berichterstattung) können zur Unterstützung 
eingesetzt werden. Erleichtert die Programmentwicklung für Beratungs- und 
Unterstützungsleistungen. 


Miksa et al. entwickelten einen Leitfaden von zehn Prinzipien für den Einsatz von 
maschinenlesbaren DMP.““ Zwei wesentliche Bausteine sind standardisierte Voka- 
bulare und ein einheitliches Datenmodell. Damit wird sowohl ein gemeinsames 
Verständnis über die Inhalte zwischen verschiedenen Stakeholdern als auch Inter- 
operabilität zwischen Werkzeugen und Services möglich. Das Datenmodell sollte 
modular aufgebaut sein und eine nachnutzbare, strukturierte Repräsentation ma- 
schinenlesbarer Informationen zum FDM darstellen.“ Die oben genannten Beispiele 
RDMO und der Data Stewardship Wizard entwickeln sich entlang dieser Linien. 


3.2 Vernetzung und Zusammenarbeit 


Wie kann eine Infrastruktureinrichtung auf die dynamische Entwicklung des Be- 
reichs FDM reagieren? An zahlreichen Hochschulen gibt es zurzeit Initiativen zum 
Aufbau von Kompetenzzentren,‘ bei denen institutionelle DMP-Angebote aufge- 
baut werden. Diese werden durch Beratungs- und Schulungsangebote ergänzt. Häu- 
fig arbeiten Bibliothek, Rechenzentrum und der Drittmittel-Service der Universität 
zusammen, um weite Bereiche des Datenlebenszyklus abzudecken. Zur besseren 
Vernetzung, dem Erfahrungsaustausch und dem Finden von Synergien wurde eine 


44 Vgl. Miksa et al. 2019. 

45 Die Research Data Alliance hat hierzu eine Arbeitsgruppe gebildet, s. https://www.rd-alliance. 
org/groups/dmp-common-standards-wg. 

46 Vgl. z.B. die Liste von FDM-Kontakten auf forschungsdaten.org, s. https://www.forschungsda- 
ten.org/index.php/FDM-Kontakte. 
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Unterarbeitsgruppe der DINI/nestor AG Forschungsdaten” zu diesem Thema ge- 
gründet, die hilfreiche Informationen aus Sicht der Infrastrukturanbieter liefert.“® 
Komplementär hat sich eine deutschlandweite RDMO-Community und auf Ebene 
von Landesinitiativen (z.B. in NRW“?) thematische Arbeitsgruppen gebildet. Hier 
werden z.B. arbeitsteilig bzw. entsprechend der Kompetenzen einzelner Einrichtun- 
gen spezifische Fragenkataloge erstellt und geteilt. Es zeigt sich, dass DMP-Werk- 
zeuge häufig ausschließlich im Beratungskontext eingesetzt werden. D.h., dass For- 
schende noch nicht selbständig DMP erstellen, sondern oft auf Unterstützung der 
Infrastrukturanbieter angewiesen sind. Insbesondere ist bei der Einführung maschi- 
nenlesbarer DMP-Werkzeuge ein teils erheblicher technischer infrastruktureller Auf- 
wand nötig. Nicht zuletzt ist die Frage danach, was einen guten DMP ausmacht, 
nicht einfach zu beantworten.?® Hier ist also noch ein Lern- und Erfahrungsaufbau 
vonnöten. Ein äußerer Trigger, der den Kompetenzaufbau fördert, ist, dass einige 
Förderprogramme dazu übergehen, in regelmäßigen Abständen - die z. T. mit übli- 
chen Berichtszeiträumen zusammenfallen — aktualisierte DMP einzufordern (z.B. 
BMBF, Horizon 2020).?' 

Damit Forschungsdaten, ihre Genese und der Kontext verstanden werden kön- 
nen, ist die Beschreibung der Forschungsdaten und die Dokumentation der Prozes- 
se, die mit Daten arbeiten, eine wesentliche Voraussetzung. Neben der Beschrei- 
bung der Forschungsdaten sollten im DMP zusätzlich die Dokumentationsabläufe 
mit den dazugehörigen Rollen und Verantwortlichkeiten beschrieben werden. Im 
folgenden Kapitel wird darauf näher eingegangen. 


4 Beschreibung und Dokumentation 


Forschungsdaten können unter mehreren Gesichtspunkten (Anforderungen) cha- 
rakterisiert werden. Dazu zählen u.a. Datentypen, Formate, Organisation, Herkunft, 
Authentizität, Qualität, Kontext. Diese Informationen helfen den Forschenden, die 


47 S. https://dini.de/ag/dininestor-ag-forschungsdaten/. DINI ist die Deutsche Initiative für Netz- 
werkinformation e.V. und nestor ist ein Kooperationsverbund zum Thema digitale Langzeitarchi- 
vierung, s. https://www.langzeitarchivierung.de/. 

48 S. https://www.forschungsdaten.org/index.php/UAG_Datenmanagementpl%C3%A4ne. 

49 S. https://www.fdm.nrw/index.php/fdm-nrw/dmp/. 

50 Vgl. den Workshop „Supporting and reviewing Data Management Plans“, IDCC 2016, insbeson- 
dere „Analysing DMPs to inform and empower academic librarians in providing research data sup- 
port: lessons from the DART project“ von A. Whitmire, s. https://www.dcc.ac.uk/events/workshops/ 
supporting-and-reviewing-data-management-plans. Die Teammitglieder haben jeweils eine Vielzahl 
von DMP analysiert und die Ergebnisse dann miteinander verglichen. 

51 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 
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Daten und ihren Kontext einzuordnen bzw. zu bewerten, und ermöglichen es digita- 

len Werkzeugen (z.B. Analyseprogramme, virtuelle Forschungsumgebungen), Da- 

ten verarbeiten zu können oder Aufgaben der längerfristigen Verfügbarmachung 

(Veröffentlichung in einem Repositorium, Archivierung) zu übernehmen. Diese cha- 

rakterisierenden Daten werden als sog. Metadaten” den eigentlichen Forschungsda- 

ten hinzugefügt. Sie sind sozusagen strukturierte Informationen über eine digitale 

Ressource. Metadaten sind für alle Phasen des Lebenszyklus von Forschungsdaten 

relevant. Damit wird das generelle Verständnis und das Nachnutzungspotenzial der 

Forschungsdaten erhöht.” 

Ein digitales Objekt kann durch drei Ebenen charakterisiert werden:”* 

— Als physisches Objekt sind es die Bits, die auf einem physischen Trägermedium 
(z. B. einem magnetischen oder optischen Speicher) gespeichert sind. 

- Als logisches Objekt, das von einer Software erkannt und verarbeitet werden 
kann (z.B. ASCII Text, Dokument einer Textverarbeitungssoftware, aber auch 
zusammengesetzte Objekte). 

- Als konzeptionelles Objekt, das von einer Person oder einer Software erkannt 
und verstanden werden kann (z.B. ein Buch, eine Karte, ein Foto). 


4.1 Arten von Metadaten 


Ausgehend von dieser Vorstellung lassen sich Metadaten prinzipiell in folgende vier 
Kategorien aufteilen: 

deskriptive Metadaten, 

administrative Metadaten, 

technische Metadaten und 

strukturelle Metadaten.” 


Tab. 2 beschreibt die vier Kategorien näher und gibt Beispiele. 


52 Vgl. „Data about data“ in Gartner 2016, 6-8. 

53 Man könnte fast so weit gehen zu sagen, dass Forschungsdaten ohne Metadaten nicht interpre- 
tierbar sind (z.B. eine Zeitreihe von Temperaturmessungen ohne Informationen darüber, dass es 
sich um eine Zeitreihe oder um welche Art von Temperaturen es sich handelt). 

54 Vgl. Thibodeau 2002, 6-10. 

55 Vgl. z.B. Corrado und Sandy 2017, 64-74; Gartner 2016, 8; Caplan 2003, 158-166. 
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Tab. 2: Grundlegende Kategorien von Metadaten” 


Art von Metadaten 


Beschreibende Metadaten 


Administrative Metadaten 


Beschreibung 


Inhaltliches Objekt: 
Beschreibung von Objekteigen- 
schaften zum Auffinden, Identi- 
fizieren, Auswählen und Zugrei- 
fen 


Verwendung von Inhaltsele- 
menten, Dateien und adminis- 
trativen Metadaten: 
Informationen über Rechte, 
Provenienz dokumentieren; für 
die Archivierung relevante In- 
formationen bereitstellen; In- 
formationen über die Erzeu- 
gung von Surrogaten 
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Beispiele 


Titel, Autorin/Autor oder Erzeu- 
gerin/Erzeuger, Name, Thema, 
Identifier (DOI, ORCID) 


Urheberrecht, Zugriffsrechte, Liz- 
enzen usw. 


Technische 
Metadaten 


Elektronische Datei: 
Dokumentation von Informatio- 
nen, die nötig sind um auf das 
beschriebene Element zuzu- 
greifen 


Dateigröße, Dateiformat, Daten- 
kompression, Prüfsummen usw. 


Strukturelle 
Metadaten 


Satz von elektronischen Da- 
teien 

Dokumentation der inneren 
Struktur des Elements; zeich- 
net Informationen über Bezie- 
hungen zu anderen Elementen 
auf; beschreibt die physische 
und logische Struktur eines di- 
gitalen Objektes 


Beziehung zu anderen Dateien; 
Beschreibung von Tabellen und 
Views in einer relationalen Daten- 
bank 


Zwischen den Kategorien gibt es eine gewisse Überlappung, sodass manchmal Kate- 
gorien zusammengefasst oder erweitert werden” (z.B. nennen Treloar und Wilkin- 
son die zusätzlichen Kategorien Provenienz- und Archivierungsmetadaten?®). Meta- 
daten bestehen aus drei grundlegenden Komponenten: 

- Eine semantische Komponente, die die Bedeutung der Felder bzw. Elemente be- 


schreibt, 


- eine syntaktische, die der Art der Kodierung der Metadaten entspricht (z. B. Ta- 


belle, XML usw.) und 


56 Vgl. Tab. 5.1. in Corrado und Sandy 2017, 66. 
57 Vgl. Gartner 2016; Treloar und Wilkinson 2008. 
58 Vgl. Treloar und Wilkinson 2008, 784. 


59 Vgl. Gartner 2016, 53. 
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- inhaltliche Regeln, d.h. welche Werte bzw. Inhalte sind als Metadatenelemente 
erlaubt bzw. gefordert. 


Ein Beispiel aus der Astronomie soll dies illustrieren.°° Beispielsweise sollen in ei- 
nem Foto von einer bestimmten Region am Nachthimmel weitere astronomische Ob- 
jekte aufgefunden werden (s. Abb. 3). 


= — = — 


File Edit Image Catalog Overlay Coverage Tool View Interop Help 


1 The NASA/IPAC Extragalactic Database 
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5 | v] be {dec ____DECin decimal degrees of heobjec... deo | dobe poseadee | | J [ 
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Abb. 3: Suche in einem bestimmten Bereich des Nachthimmels nach astronomischen Objekten. 
Hier mittels des Werkzeuges Aladin (s. https: //aladin.u-strasbg.fr/) 


Hierbei geht es darum, das Bild des Nachthimmels mit den Positionen von bekann- 
ten Objekten zu überlagern bzw. zu markieren. Hierfür müssen die Koordinaten/Po- 
sitionen in dem Bild bekannt sein, sodass ein Crossmatch mit einem Quellkatalog 
vorgenommen werden kann. Positionen am Nachthimmel werden üblicherweise in 
Rektaszension und Deklination angegeben.® Hierfür sind die Metadatenfelder RA 
und DE vorgesehen (unterer Bereich in Abb. 3). Da es mehrere Koordinatensysteme 
zur Beschreibung von Positionen am Himmel gibt, muss eindeutig sein, welches 
System hier benutzt wird. Um die Beschreibung von astronomischen Beobachtun- 


60 Für Beispiele aus dem Bereich der Geisteswissenschaften siehe Gartner 2016, 53-63. 
61 S. https://de.wikipedia.org/wiki/%C3%84quatoriales_Koordinatensystem. 


4.1 Planung, Beschreibung und Dokumentation von Forschungsdaten —— 317 


gen zu vereinheitlichen und Interoperabilität zu ermöglichen, wurden von der IVOA 
Metadatenstandards entwickelt.‘ Das Beispiel aus Abb. 3 verweist in der Beschrei- 
bung der Koordinaten auf diesen Standard (UCD: pos.eq.ra, pos.eq.dec). UCD bedeu- 
tet Unified Content Descriptor. Hierbei handelt es sich um ein formales Vokabular 
für astronomische Daten. Abbildung 4 zeigt einen maschinenlesbaren XML-Aus- 
schnitt für diese Datenfelder. 


<FIELD 'name="s ra" -datatype="double" -ucd="pos.eq.ra" ‘unit="deg"T 
utype "obscore:Char.SpatialAxis.Coverage.Location.Coord.Position 
2D.Value2.C1" xtype-"adql:DOUBLE">J 

+ +<DESCRIPTION>RA ‘of ‘central "-coordinates</DESCRIPTION>I 
</FIELD> 
<FIELD 'name="s dec" -datatype="double" -ucd="pos.eq.dec" - 


utype="obscore:Char.SpatialAxis .Coverage.Location.Coord. Position 
2D .Value2 .C2" -xt ype="adql : DOUBLE" >{ 

+ + *<DESCRIPTION>DEC ‘of ‘central ‘coordinates</DESCRIPTION>{ 
</FIELD> 


Abb. 4: XML-Ausschnitt fiir die Position von astronomischen Objekten basierend auf Metadaten- 
standards der IVOA (s. http://ivoa.net/documents/ObsCore/index.html) 


Dabei ist noch die Bedeutung von (physikalischen) Einheiten (hier deg) und Daten- 
formaten (hier adql:DOUBLE) zu betonen. 

Heute sind Metadaten in maschinenlesbarer Form oftmals in Form von XML™ 
kodiert. Inhaltliche Regeln sind oft in Form von kontrollierten Vokabularen definiert 
(z.B. der Getty Thesaurus von geografischen Namen“ oder das Basel Register of 
Thesauri, Ontologies & Classifications”). 

Standardisierte Metadaten unterstützen bzw. ermöglichen die Interoperabilität, 
Wiederverwendbarkeit, Transparenz und Integrationsfähigkeit von Daten und digi- 
talen Werkzeugen. Standards werden meist innerhalb einer Community“ entwickelt 
und etabliert.°® Es gibt eine Reihe recht generischer Metadatenstandards wie z.B. 
Dublin Core (Beschreibung von Dokumenten und anderen Objekten im Internet), 


62 International Virtual Observatory Alliance, s. http://ivoa.net/documents/ObsCore/index.html. 
63 S. http://ivoa.net/documents/latest/UCD.html. 

64 eXtensible Markup Language, s. https://www.w3.org/standards/xml/. 

65 S. http://www.getty.edu/research/tools/vocabularies/tgn/index.html. 

66 S. http://www.bartoc.org. 

67 Dies können durchaus unterschiedliche Communities sein, z.B. eine wissenschaftliche Commu- 
nity, eine bibliothekarische, eine wirtschaftliche, eine technische usw. 

68 S. z.B. https://phaidra.univie.ac.at/0:441215. 

69 S. https://dublincore.org/. 
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DataCite’® (Publikation und Zitation von Forschungsdaten), RDF” (Beschreibung 
von Webressourcen) usw. Fachspezifische Metadatenstandards finden sich z.B. in 
den Sozialwissenschaften (DDI), in den Geisteswissenschaften (TEI?), in den Geo- 
wissenschaften (ISO 19115”), in der Astrophysik (IVOA-Standards”), um einige zu 
nennen. Die Webseite von Jenn Riley zeigt einen Überblick über existierende Stan- 
dards auf dem Stand von 2010.” Die Abstimmungsprozesse für Standards innerhalb 
einer Community sind oft aufwendig und langwierig, was sowohl die Adaption von 
fremden Standards als auch die Entwicklung von community-übergreifenden Stan- 
dards erschwert.” An dieser Stelle können jedoch Infrastruktureinrichtungen wie 
wissenschaftliche Bibliotheken oder Rechenzentren Serviceangebote entwickeln, 
was zumindest das Auffinden und die Adaption von Standards fiir Forschungspro- 
jekte betrifft.’® 


4.2 FAIR-Prinzipien 


Eine Grundlage für die Umsetzung der FAIR-Prinzipien stellen maschinenlesbare 
Metadaten dar. Diese erlauben z.B. die eindeutige Referenzierbarkeit (z.B. DOI,” 
ORCID®°), die Nachnutzung (Lizenzbedingungen) und Interoperabilität (Daten- und 
Dateiformate) von Forschungsdaten.®! 

Die Umsetzung ist allerdings nicht ganz einfach, insbesondere für Forschende, 
die sich vermehrt mit entsprechenden Anforderungen seitens der Förderorganisatio- 
nen konfrontiert sehen.°? Bei den FAIR-Prinzipien handelt es sich um einen Leitfa- 
den und nicht um einen Standard. Zurzeit gibt es noch kein FAIR-Ökosystem, das 
einfach anzuwendende Praktiken und Werkzeuge für die alltägliche Arbeit bietet.°? 
Es lässt sich relativ einfach testen, wie FAIR die eigenen Daten und Services sind. 
Aber entsprechende Best Practices, wie diese dann FAIRer gemacht werden können, 
existieren derzeit nur sporadisch. Doch ist das Feld sehr agil und es gibt eine Reihe 


70 S. https://datacite.org/. 
71 S. https://www.w3.org/2001/sw/wiki/RDF. 
72 S. https://ddialliance.org. 


74 S. http://www.dcc.ac.uk/resources/metadata-standards/iso-19115. 

75 S. http://ivoa.net/documents. 

76 S. http://jennriley.com/metadatamap. 

77 Vgl. Gartner 2016, 37-39. 

78 Vgl. z.B. Curdt et al. 2019; Tenopir et al. 2017. 

79 Digital Object Identifier, s. https://www.doi.org/. 

80 Open Researcher and Contributor IDentifier, s. https://orcid.org/. 

81 S.a. Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch; Wilkinson et al. 2016. 
82 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 

83 Vgl. Thompson et al. 2019. 
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von Aktivitäten zu praktischen Umsetzungen.* Insbesondere zeigen diese Ansätze 
Wege auf, wie sich schrittweise Daten und Dienste FAIRer gestalten lassen. Da diese 
z. T. sehr infrastruktur- bzw. IT-lastig sind, bildet auch hier die Kooperation mit In- 
frastruktureinrichtungen einen Ansatz für eine Arbeitsteilung mit verteilten Rollen, 
Aufgaben und Verantwortlichkeiten.°° 


4.3 Workflows 


Ein wesentlicher Aspekt für die praktische Umsetzung des Einsatzes von Metadaten 
ist die Frage, wann welche Metadaten von wem und auf welche Art und Weise er- 
fasst werden. Generell lässt sich empfehlen, Metadaten möglichst zeitnah (zeit- 
gleich) mit den entsprechenden Arbeitsschritten, bei denen Forschungsdaten er- 
zeugt oder verarbeitet werden, aufzunehmen. Entsprechende Zeitpunkte sind z.B. 
die semiautomatische Erzeugung von Metadaten bei Experimenten. Auch sind die 
Kurationsgrenzen des Data Curation Continuum® (private > Kollaborations- > öf- 
fentliche Domäne) Zeitpunkte im Forschungsprozess, zu denen entsprechend der 
Anforderungen der neuen Domäne gewisse Metadaten angereichert werden sollten. 
Eine retrospektive Erfassung von Metadaten birgt immer die Gefahr der Unvollstän- 
digkeit, weil relevante Informationen fehlen, keine Zeit (Motivation) oder finanziel- 
le/personelle Ressourcen dafür vorhanden sind. Um die Hürde bzw. den Aufwand 
für Forschende zu minimieren, können lokale Supportangebote seitens der Infra- 
struktureinrichtungen oder entsprechend geschulten Personals in den Forschungs- 
vorhaben entwickelt und genutzt werden. Hierzu gehören 
- Beratung durch professionelle Serviceeinrichtungen (z.B. Drittmittel-Services) 
bei der anfänglichen Planung von Forschungsvorhaben, 
- Schulungsangebote durch die Infrastruktureinrichtungen (Kompetenzaufbau 
der Forschenden), 
-  Bereitstellung/Entwicklung/Nachnutzung von Werkzeugen, die die zeitnahe Er- 
fassung von Metadaten ermöglichen/vereinfachen, 
- Personal, das die Kuratierung übernimmt (z. B. Datenmanager oder Datenmana- 
gerin). 


84 Z.B. Thompson et al. 2019; Griffin et al. 2018; Mons et al. 2017; Wilkinson et al. 2017. 
85 Vgl. Schirrwagen et al. 2019. 
86 Vgl. Treloar & Klump 2019. 
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Für die Umsetzung gibt es mehrere Möglichkeiten.’ Im Bereich des Long Tail®* kön- 
nen Forschungsvorhaben universelle Werkzeuge®? für die Datenbeschreibung und 
Schnittstellen zu interdisziplinären Forschungsdatenrepositorien (z.B. Zenodo°°) 
angeboten werden. Für größere Projekte mit spezifischeren Anforderungen lassen 
sich spezialisierte Arbeitsabläufe entwickeln. Die Werkzeuge, die zur Verfügung ste- 
hen und deren Nutzbarkeit sind auch entscheidend dafür, wieviel Engagement For- 
schende in das FDM investieren. 

Bei der Betrachtung der Kategorien von Metadaten, lassen sich entlang des For- 
schungsprozesses ebenfalls Zuordnungen zu den in Tab. 1 genannten Rollen her- 
stellen. Forschende werden im Wesentlichen für die beschreibenden Metadaten ver- 
antwortlich sein, denn diese erlauben die Identifizierung sowie die Referenzierung 
und stellen den Kontext her. Auch im Bereich der administrativen Metadaten, insbe- 
sondere im Bereich der Provenienz, d.h. die Dokumentation der Forschungs- bzw. 
Verarbeitungsprozesse, werden sich Forschende mit einbringen müssen, weil hier 
disziplinspezifische Kenntnisse erforderlich sind. Die anderen Kategorien von Meta- 
daten werden in Abhängigkeit von den lokalen organisatorischen Gegebenheiten 
eher im Bereich Forschungsunterstützung oder Infrastruktureinrichtungen verortet 
sein. Ein enger Austausch zwischen den Agierenden ist wichtig, damit entsprechen- 
de Metadaten im Rahmen einer Datenstrategie aus der einen Phase des Projektes in 
die nächste Phase migriert bzw. transformiert werden können, z.B. wenn es darum 
geht gewisse Daten und Metadaten für die Langzeitarchivierung vorzubereiten.”! 

Ein mögliches Szenario für die Erfassung von Metadaten in einem Forschungs- 
projekt könnte sein, dass globale Metadaten, die das Projekt beschreiben (Namen 
der Forschenden, Projekttitel, Vorhabenbeschreibung usw.) sowie eine erste Iterati- 
on der Beschreibung von anfallenden Forschungsdaten, Software usw., in der Pla- 
nungs- bzw. Antragsphase erfasst und dokumentiert werden. Hier können Bera- 
tung, Schulung und Werkzeuge zur Erstellung von DMP, die z.B. durch die 
zentralen professionellen Unterstützungsstrukturen an Hochschulen bereitgestellt 
werden, helfen. Eine sinnvolle Strategie zur Beschreibung könnte nach Michener 
wie folgt aussehen: 

— Identifizierung der Arten von Informationen, die benötigt werden, die Forschen- 
den erlauben sollen, die Daten zu finden, auf die Daten zuzugreifen, die Daten 
zu interpretieren und zu zitieren. 


87 Vgl. Ribeiro et al. 2018. 

88 Vgl. Borgman et al. 2016. 

89 S. z.B. https://library.stanford.edu/research/data-management-services/data-best-practices/ 
creating-metadata/metadata-tools. 

90 S. https://zenodo.org. 

91 S.a. Beitrag von Weber und Piesche, Kap. 4.2 in diesem Praxishandbuch. 

92 Vgl. Michener 2015, 4. 
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- Herausfinden, ob es fachspezifische Metadatenschemas oder Standards gibt, 
die zusammen mit kontrollierten Vokabularen angewendet werden können. 

- Identifizierung von Softwarewerkzeugen, die eingesetzt werden können, um 
Metadaten zu erzeugen und zu managen. Zusätzlich können z.B. Textdateien 
(readme), welche relevante Metadaten enthalten, hinzugezogen werden oder 
sogar in Dateiheadern integriert werden. 


Außerdem macht es Sinn, eine verantwortliche Person zu benennen, die alle Pro- 
jektdetails bspw. in einem elektronischen Laborbuch verwaltet. Hier könnte ein Pro- 
zess aufgesetzt werden, in dem in regelmäßigen Abständen ein weiteres Team-Mit- 
glied die Aufzeichnungen überprüft. Die Metadaten können dann zu Datenproduk- 
ten hinzugefügt werden, die gespeichert, nachgenutzt und geteilt werden. Ein 
weiterer wichtiger Aspekt ist die Nutzung offener, nicht-proprietärer Datenformate 
und Werkzeuge. Bei nicht-offenen Formaten handelt es sich dann oft um „Black Bo- 
xes“, die nur innerhalb der kommerziellen Umgebung nutzbar sind. Beim Export in 
offene Formate gehen dann meist wesentliche Metadaten verloren. 

Komplexer stellt sich die Situation für die Dokumentation während der aktiven 
Forschungsphase dar, die oftmals iterativ und „on-the-fly“ (weiter-)entwickelt und 
durchgeführt wird (vgl. Abb. 1). Wie bereits erwähnt könnte eine Zusammenarbeit 
zwischen Forschenden und Infrastruktureinrichtungen innerhalb von Projekten 
stattfinden. Neben der Arbeits- und Aufgabenteilung besteht für die Infrastruktur- 
einrichtungen die Möglichkeit des Kompetenzaufbaus bzw. -ausbaus und der Ent- 
wicklung einer nachhaltigen (lokalen) Infrastruktur von relevanten und nachgefrag- 
ten Werkzeugen (z. B. mittels eingebetteten Personals”). Über das konkrete Projekt 
hinaus können Forschende am lokalen Standort zukünftig von diesen Werkzeugen 
profitieren. Hierbei ist zu beachten, dass aufgrund der diversen Arbeitskulturen im- 
mer auch eine Einpassung in etablierte Forschungsprozesse vonnöten ist.?* Eine Ad- 
aption von Forschungsprozessen an neue Technologien scheint am ehesten schritt- 
weise erreichbar zu sein, um mögliche Widerstände abzufedern. Das Konzept der 
Rampen von Atkinson et al.” beschreibt in diesem Zusammenhang, wie ausgehend 
von aktuellen Arbeitspraktiken, aktuell genutzten (digitalen) Werkzeugen usw. mit 
kleinen in sich logischen Schritten Anpassungen der Arbeitspraktiken vorgenom- 
men werden. Dabei sollen detaillierte technische Aspekte zunächst möglichst aus- 
geblendet werden. Ein Beispiel könnte die Nutzung eines Cloudspeichers wie z.B. 
sciebo” sein. Die Client-Software lässt sich nahtlos in das lokale Dateimanagement 
integrieren, sodass das bekannte Aussehen des Dateiexplorers erhalten bleibt. Der 


93 Vgl. Cremer, Engelhardt und Neuroth 2015, 15-17. 
94 Vgl. z.B. Meyer und Schroeder 2015, 197-208. 

95 Vgl. Atkinson et al. 2010. 

96 S. https://www.sciebo.de/. 
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Client erlaubt dann aber Dateien über mehrere Endgeräte hinweg zu synchronisie- 
ren und mit Kooperationspartnern teilen. 

Im Sinne der Qualitätssicherung entlang des Datenlebenszyklus spielt die Qua- 
lität der Metadaten eine wichtige Rolle. Die Qualität der in ihnen enthaltenen Infor- 
mationen bestimmt die (Nach-)Nutzbarkeit der Forschungsdaten. Die Qualität von 
Metadaten kann unter folgenden Gesichtspunkten betrachtet werden: Vollständig- 
keit, Genauigkeit, Provenienz, Erwartungskonformität, logische Konsistenz und Ko- 
härenz, Aktualität und Zugänglichkeit. 


Fazit 


Die Planung, Beschreibung und Dokumentation beim Umgang mit Forschungsdaten 
ist ein komplexes Feld mit vielen Stakeholdern. Die Zusammenarbeit zwischen For- 
schenden, professionellen Dienstleistern und Infrastruktureinrichtungen hat das 
Potenzial, verschiedene Expertisen zusammenzubringen, um insbesondere so für 
die Forschenden eine bedarfsgerechte, effektive und nachhaltige Arbeitsumgebung 
zu ermöglichen. 

Zurzeit lässt sich eine gewisse Stagnation bzw. eine Verschiebung der Schwer- 
punkte bei der Entwicklung und Bereitstellung von Informationsinfrastrukturen für 
die Dissemination und Vernetzung von Forschungsergebnissen beobachten.?® Hin- 
zu kommt der große Bedarf an Datenkompetenzen in allen Stakeholdergruppen.” 
Solange größere Initiativen wie z.B. die Nationale Forschungsdateninfrastruktur 
(NFDJ),'°°, die European Open Science Cloud (EOSC)'?' oder GO-FAIR'!” sich gerade 
finden oder noch in der Entwicklung befinden, scheint es durchaus sinnvoll, sich 
lokal bzw. in Projekten, ganz im Sinne von Atkinson et al.,'” schrittweise weiterzu- 
entwickelnden Beschreibungs- und Dokumentationsworkflows zu nähern.!” Dann 
wird es ebenfalls einfacher, unterschiedliche Bedarfe bzw. Anforderungen wie Do- 
kumentation zur internen Verwendung, Dokumentation und Kuratierung für eine 
Veröffentlichung von Forschungsdaten zu erfüllen bzw. ineinander zu überführen. 


97 Der Beitrag von Kiräly und Brase, Kap. 4.3 in diesem Praxishandbuch geht näher darauf ein. 
98 Vgl. Neuroth 2019, 167-169. 

99 Vgl. z.B. Fournier 2017. 

100 S. https://www.dfg.de/foerderung/programme/nfdi. 

101 S. https://www.eosc-portal.eu. 

102 S. https://www.go-fair.org. 

103 Vgl. Atkinson et al. 2010. 

104 Vgl. Mons et al. 2017, 53. 
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Abstract: Die langfristige Speicherung von Daten und deren nachhaltige Verfiigbar- 
keit sind schon seit langem wichtige Desiderate in der Forschung. Experimente, 
Messungen, Simulationen oder Auswertungen liefern Daten, fiir die optimale Aufbe- 
wahrungsmöglichkeiten gefunden werden müssen. Längst stellt die Forschung An- 
forderungen, die über die „reine“ Speicherung der Daten hinausgehen. Dabei gibt 
es keine universelle Methode, sondern für jedes Forschungsvorhaben muss die ge- 
eignete Vorgehensweise gefunden werden. Je nach Bewertung der Forschungsdaten 
können verschiedene Erhaltungsstrategien angewandt werden, die wiederum unter- 
schiedliche Anforderungen an die Art des physischen Speichers und den Zugriff ha- 
ben. Zur Bewertung der Forschungsdaten spielen Selektion und Kuration daher eine 
immer wichtigere Rolle. Einerseits geht es dabei um die Auswahl und Klassifizie- 
rung der Daten, die langfristig aufgehoben werden sollen. Andererseits rückt im 
Kontext der Nachnutzbarkeit auch die geeignete Beschreibung der Daten und des 
Entstehungskontextes in den Fokus. Das Ziel einer langfristigen Verfügbarkeit und 
Interpretierbarkeit ist ohne die ausreichende Beschreibung der Rohdaten nicht er- 
reichbar. Damit stellt die Langfristarchivierung auch die IT-Systeme und deren Ar- 
chitektur vor Herausforderungen. Ein möglicher Lösungsansatz ist das „Open Archi- 
val Information System“-Modell (OAIS-Modell) als Referenz zur Implementierung 
der Langzeitarchivierung digitaler Objekte. Der vorliegende Artikel beschreibt die 
unterschiedlichen Möglichkeiten der Speicherung von Forschungsdaten, erklärt 
was im Kontext von Langfristverfügbarkeit Datenkuration bedeutet und beschreibt 
das OAIS-Referenzmodell. Schließlich werden im Abschnitt Praxistransfer prakti- 
sche Hilfestellungen zu den Themen des Artikels gegeben. 


Einleitung 


Die ältesten bislang entdeckten Höhlenmalereien finden sich in der Höhle Cueva de 
El Castillo bei Puente Viesgo in Spanien.' Uber den Zweck der Abbildungen gibt es 
verschiedene Theorien, z.B. dass es sich um die Darstellung von Jagderfahrungen 
handelt. Stellen diese Bilder eine frühe Form von Forschungsdaten dar, in denen 
experimentell entwickelte Jagdmethoden dokumentiert werden? Die Zuschreibung 


1 Vgl. Cabrera Valdes 1989, 577-584. 


3 Open Access. © 2021 Andreas Weber und Claudia Piesche, publiziert von De Gruyter. [EJE Dieses Werk 
ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110657807-019 
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„Forschungsdaten“ ist wahrscheinlich eine etwas gewagte These. Jedoch stellen die 
Abbildungen im Rahmen der Erforschung und Entdeckung des eigenen Lebens- 
raums ein gutes Beispiel für die langfristige Bewahrung von Menschen geschaffener 
Informationen dar. Schaut man weiter nach Beispielen langfristig erhaltenen Wis- 
sens, findet man in der Antike die in hieroglyphischer Schrift überlieferten Informa- 
tionen vergangener Kulturen am Nil. Gleichzeitig lässt sich eine wichtige Vorausset- 
zung langfristiger Verfügbarkeit daran gut verdeutlichen. Die Entdecker der Hiero- 
glyphen konnten die einzelnen Zeichen erkennen, deren Entzifferung gelang aber 
erst viele Jahre später durch das Sprachgenie Jean-Francois Champollion.? Den 
Schlüssel zum Erfolg bildete der Stein von Rosetta,’ in den ein Text über den König 
Ptolemaios in drei Sprachen, darunter auch in Hieroglyphen, eingemeißelt ist. Auf- 
grund der Mehrsprachigkeit der dargestellten Ereignisse wurden eine Interpretation 
und damit ein sprachliches Verständnis der hieroglyphischen Zeichen möglich. Da- 
mit konnte dann durch mühsame Vergleichsarbeit der Texte die Interpretation der 
Hieroglyphen abgeleitet werden. Man kann erkennen: Der alleinige Erhalt von Da- 
ten ist für eine spätere Interpretation oder Wiederverwendung nicht ausreichend. Es 
muss auch die Information erhalten werden, wie die Daten zu interpretieren sind. 
Das unterscheidet die eigentliche Datenspeicherung von der Langfristspeicherung 
von Daten. Insbesondere in der heutigen Zeit der digitalen Daten muss dieses Pro- 
blem bei der Langzeitarchivierung mitgedacht werden, denn sowohl die Lesbarkeit 
als auch die Interpretation digitaler Daten hängt von speziellen Anwendungen ab. 
Dies betrifft sowohl den Hardware- als auch den Anwendungskontext digitaler Da- 
ten. Die meisten Daten werden heute in einer Form gespeichert, die einen Zugriff 
auf die Information nur über technische Hilfsmittel erlaubt, die im Falle einer lan- 
gen Aufbewahrungsperiode möglicherweise veraltet, nicht mehr nutzbar oder gar 
zerstört sein könnten. 

Für die Sicherung von bedeutendem Kulturgut geht man deshalb einen beson- 
deren Weg. So werden z.B. als Bundesaufgabe im Rahmen des Zivilschutzes” seit 
1961 wichtige Archivalien mikroverfilmt? und die Filme in Spezialbehältern im Bar- 
barastollen in Oberried bei Freiburg im Breisgau eingelagert.° Der Zugriff auf die In- 
formation kann mit Hilfe einer Lupe und einer Lichtquelle ohne weitere technische 
Hilfsmittel gewährleistet werden, solange die Information über die Interpretation 
der abgelichteten Sprachen nicht verlorengegangen ist. Neben dem Mikrofilm wer- 


2 Vgl. Majonica 2007. 

3 Vgl. Depuydt 1999, 686-687. 

4 Vgl. BMI 1987, 284-292. 

5 S. https://www.bbk.bund.de/DE/AufgabenundAusstattung/Kulturgutschutz/Sicherungsverfil- 
mung/sicherungsverfilmung_node.html. Letztes Abrufdatum der Internet-Dokumente ist der 
15.11.2020. 

6 S. http://www.bbk.bund.de/DE/AufgabenundAusstattung/Kulturgutschutz/ZentralerBergungs- 
ort/zentralerbergungsort_node.html. 
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den andere persistente Speichermedien verwendet. Im Projekt Memory of Mankind 
(MoM)’ werden die Daten z.B. auf Keramikfliesen gebrannt. Diese Spezialfliesen 
sind bis 1200 Grad Celsius temperatur-, säure-, laugen- und strahlungsbeständig 
und werden in einem Salzbergwerk in Hallstatt gelagert. Solche Verfahren sind sehr 
kostenintensiv, haben eine sehr geringe Speicherdichte und sind somit nur fiir be- 
sonders wichtige Informationen sinnvoll einsetzbar. Der Auswahl der zu speichern- 
den Informationen im Rahmen der Datenkuration kommt hier eine besonders wich- 
tige Rolle zu. 

Die Forderung nach der Uberpriifbarkeit von Forschungsergebnissen führt 
dazu, dass die langfristige Speicherung von Daten nicht nur fiir einzelne Forschen- 
de ein zentrales Thema geworden ist, sondern auch fiir Forschungseinrichtungen. 
Dabei spielt die Kuration von Daten im Forschungsprozess eine immer größer wer- 
dende Rolle. Der Rat für Informationsinfrastrukturen (RfII) hat in seinen Empfehlun- 
gen? die Schaffung neuer Berufsbilder, wie etwa von Datenkuratoren, sogar ange- 
regt. 


1 Datenspeicherung 


Grundsätzlich sind Speichermedien durch Zugriffszeit, Datenrate und Speicherka- 
pazität charakterisiert. Die Anforderungen an die Speichermedien in der Forschung 
haben eine große Bandbreite und sind je Anwendungsfall verschieden. So ist es of- 
fensichtlich, dass die Speicherung von Daten aus komplexen Experimenten, z.B. 
Kernfusionsexperimenten, wo pro Plasmaeinschluss in weniger als einer Sekunde 
mehrere 100 Megabyte an Daten entstehen, sich von der Speicherung von Auswer- 
tungen von sozialwissenschaftlichen Umfragen deutlich unterscheidet. 

Bei den derzeit vorhandenen Speichertechniken besteht ein prinzipieller 
Konflikt zwischen der Minimierung der Zugriffszeit und der Maximierung der Spei- 
cherkapazität. In großen Rechner- und Speichersystemen werden deshalb unter- 
schiedliche Speichertechnologien zu Speicherhierarchien kombiniert, um einen 
Kompromiss aus schnellem Zugriff und großen Speicherkapazitäten bei angemesse- 
nen Kosten zu erreichen. Um Forschende bei der Planung ihrer Datenhaltungsstra- 
tegie beraten zu können, müssen die aktuellen technischen Möglichkeiten und die 
zukünftigen Entwicklungen bekannt sein. Nachfolgend werden diese deshalb kurz 
beschrieben und weitere Implikationen betrachtet. 


7 MoM: Wie bewahrt man Information dauerhaft für 1 Million Jahre auf? Vgl. https://www.memory- 
of-mankind.com/de/how-is-information-kept-legible-for-1-million-years/. 
8 S. RfII 2016, http://www.rfii.de/?wpdmdl=1998. 
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1.1 Speichermedien in der EDV 


Grundsätzlich lassen sich die Speichermedien in Rechnersystemen in Primär-, Se- 
kundär- und Tertiärspeicher? unterscheiden.!? Als Primärspeicher werden alle Spei- 
cher mit wahlfreiem Zugriff (Random Access) bezeichnet, auf die der Prozessor di- 
rekt mit voller Geschwindigkeit zugreifen kann. Dazu zählen Register eines Prozes- 
sors, Caches und der Hauptspeicher (Main Memory bzw. Arbeitsspeicher). 
Primärspeicher bieten sehr schnellen Zugriff im Nanosekunden-Bereich, sind aber 
hinsichtlich ihrer Kapazität begrenzt. 

Hintergrundspeicher mit index-sequentiellem (quasi-wahlfreiem) Zugriff, wie 
magnetische Festplatten oder RAID-Systeme (Redundant Arrays of Independent 
Disks) werden als Sekundärspeicher bezeichnet. Diese Speicher verfügen im Ver- 
gleich zu Primärspeichern über große Kapazitäten, weisen allerdings einen um den 
Faktor 10° langsameren Zugriff auf.” Dieser gravierende Unterschied in der Zugriffs- 
zeit wird auch als Zugriffslücke bezeichnet. 

Speichertechnologien mit Speichermedien, auf die nicht direkt zugegriffen wer- 
den kann, gliedern sich in die Kategorie der Tertiärspeicher ein. Nicht direkt zugreif- 
bar bedeutet, dass Medien manuell bedient werden müssen oder in robotergesteuer- 
ten Bibliotheken organisiert sind. Erst beim Zugriff auf die Daten werden diese in 
die entsprechenden Schreib-/Lesegeräte bewegt. Die Zugriffslücke zwischen Sekun- 
där- und Tertiärspeicher erreicht ebenfalls einen Faktor von bis zu 10°. Dabei haben 
sich heute drei Tertiärspeichertechnologien etabliert: magneto-optische Speicher, 
optische Speicher und Magnetbänder. Magneto-optische und optische Speicher wer- 
den überwiegend bei kleinen bis mittleren Datenmengen (GByte bis TByte) einge- 
setzt und wenn schneller Zugriff erforderlich ist. Für die Speicherung sehr großer 
Datenmengen (TByte bis PByte) werden vor allem Magnetbänder verwendet. 

Seit Beginn der Speicherung von Daten in Computersystemen hat es eine posi- 
tive Entwicklung sowohl bei den Zugriffszeiten als auch im Bereich der Speicher- 
dichte gegeben. Bei der Kapazität konnte in den letzten 40 Jahren eine Steigerung 
der Speicherdichte um den Faktor 25 Milliarden erreicht werden,” wenn man die 
ersten Lochkarten mit einer heutigen SD-Karte vergleicht. Die Zugriffszeiten wurden 
ebenfalls gesteigert, wobei hier oft der Vorteil durch die Verwendung von schnellem 
Zwischenspeicher (Caches) entsteht, die die Zugriffslücken überbrücken können. 
Die Entwicklung von Speichermedien wird aber auch von der Verbesserung der Ro- 
bustheit der Speichermedien gegenüber Datenverlust, Ermüdungserscheinungen 


9 In der Literatur wird manchmal der Tertiärspeicher nicht explizit aufgeführt, sondern zu den 
Sekundärspeichern gezählt. 

10 Vgl. TG 2001. 

11 Vgl. Hennessy 2007, 359. 

12 S. https://wkdiscpress.de/ratgeber/chronik-der-speichermedien/. 
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des Materials und der Kosten für die Speichermedien geprägt. In der Geschichte gab 
es dabei auch durchaus kuriose Entwicklungen. Im Jahr 1998 wurde z.B. die Mög- 
lichkeit der Speicherung von Daten auf handelsüblichem Tesafilm vorgestellt,” bei 
der bis zu zehn GByte auf einer Rolle Tesafilm abgelegt werden konnten. Das Spei- 
chermedium wäre in diesem Fall als günstiges Massenprodukt zu kaufen gewesen. 
Jedoch hat sich als sogenannter WORM-Speicher™ dann aber die DVD durchgesetzt. 
Die Chancen für weitere Leistungssprünge im Speicherbereich stehen gut, denn 
neue Technologien sind bereits in den Startlöchern oder befinden sich bereits im 
Einsatz. Ein paar aktuelle Entwicklungen werden nachfolgend kurz vorgestellt. 

Phase-Change-Memory-Chips (PCM-Chips) basieren auf chemischen Verbindun- 
gen, die mit ihrer Struktur ihre elektrische Leitfähigkeit verändern können.” Die 
durch einen starken Stromimpuls verursachte starke Erhitzung verändert die Ord- 
nung der Moleküle und damit den Widerstand. Erneute geringe Stromzufuhr führt 
wieder zum Originalzustand in der Leitfähigkeit. Somit können binäre Informatio- 
nen gespeichert werden. Diese Technik ist vor allem in Smartphones bereits im Ein- 
satz. Die Vorteile der PCMs gegenüber Flash-Speichern liegen in der günstigeren 
Herstellung und in der etwa fünfmal höheren Speicherdichte. Der größte Vorteil 
liegt aber darin, dass PCMs mehr als zehn Millionen Mal beschrieben werden kön- 
nen, wohingegen die Garantie herkömmlicher Flash-Speicher nach einigen 1000 
Schreibvorgängen erlischt. 

Bei dem von IBM entwickelten „Racetrack“-Speicher werden, ähnlich wie bei 
Magnetbändern, digitale Daten in einer Reihe von magnetischen Domänenwänden 
(DWs) gespeichert. Im Unterschied zu Magnetbändern werden diese jedoch in Nano- 
drähten gespeichert, die in einem 3D-Array angeordnet sind.!° Der Betrieb eines 
„Rennstreckenspeichers“ beruht darauf, dass die DWs entlang der Nanodrähte mit 
bis zu 2000 Metern pro Sekunde bewegt werden können, indem ein Strom durch 
den Draht geleitet wird. Da dabei nur Elektronen bewegt werden, können die Daten 
etwa 100 000 Mal schneller gelesen werden als von heutigen Festplatten und es gibt 
auch fast keine mechanische Abnutzung. Die Drähte haben nur einen Durchmesser 
im Nanometerbereich, so dass sich etwa 180 000 Drähte auf der Breite eines Men- 
schenhaares unterbringen lassen. Somit könnten auf mobilen Endgeräten mehrere 
tausend Filme gespeichert werden. Wegen des geringen Energiebedarfs können die 
Speicher wochenlang mit einer Akkuladung laufen und hätten eine quasi unendlich 
lange Lebensdauer. Es gibt derzeit noch keine Umsetzung, die eine Massenproduk- 


13 S. https://www.spektrum.de/news/tesafilm-als-datenspeicher/341007. 

14 WORM Speicher sind Speichermedien, die nur einmalig schreibenden (Engl. write once) aber 
mehrfach lesenden Zugriff (Engl. read many) erlauben. 

15 Vgl. Ovshinsky 1968. 

16 Vgl. Parkin 2008. 


332 —— Andreas Weber und Claudia Piesche 


tion erlaubt. Grundsätzliche Fragen, wie z.B. die Genauigkeit der Positionierung 
von DWs sind Gegenstand aktueller Forschung.” 

Im Bereich der Langzeitdatenspeicherung von sehr großen Datenbeständen 
werden derzeit ebenfalls interessante neue Technologien entwickelt. Ein Beispiel ist 
die Erforschung der Möglichkeit, DNA-Material als Speicherbaustein zu verwen- 
den.'® Damit wären sehr hohe Speicherdichten von etwa ein Exabyte/mm? (10° GB/ 
mm?) zu erreichen. Zudem ist die Speicherung mit DNA sehr langlebig (Halbwerts- 
zeit etwa 500 Jahre im Vergleich zu 30 Jahren für Magnetbänder). Die bislang er- 
reichten Verfahren sind noch langsam, skalieren nicht und sind zudem sehr teuer. 
Aber neuere Entwicklungen lassen marktreife Verfahren in den nächsten Jahren er- 
warten.” Mit dieser Technologie könnten künftig die Informationsinhalte ganzer Re- 
chenzentren in etwa eine Handfläche passen. 

Es besteht also die Aussicht, dass es auch zukünftig geeignete Medien geben 
wird, um die immer größer werdende Masse an Informationen adäquat zu spei- 
chern. Trotz steigender Speicherkapazitäten und neuer Speichertechnologien wird 
es aber auch in Zukunft eine Herausforderung sein, Daten strukturiert und verände- 
rungssicher zu speichern. 


1.2 Verwaltung von Daten auf den Speichermedien 


Grundsätzlich muss ein Speicher, von dem Informationen gelesen oder auf den Bits 
und Bytes geschrieben werden sollen, in irgendeiner Form organisiert werden. Dazu 
werden die Speicherbereiche auf den Medien mit Hilfe verschiedener Methoden in 
Einheiten aufgeteilt. Bei einem Blockspeicher werden die Speichereinheiten in Blö- 
cken bestimmter Größe bereitgestellt, die durch die Anwendung angesprochen wer- 
den. Diese Zugriffsart wird z. B. von Datenbankanwendungen verwendet. Die derzeit 
gängigste Methode, Speicherplatz zu verwalten, sind Filesysteme. Dabei werden die 
Daten in Dateien organisiert, die in hierarchischen Dateisystemen abgelegt werden. 
Für den Zugriff auf die Informationen benötigt man den Pfad zu der Datei im hierar- 
chischen Dateibaum. Die Organisation dieser Strukturen zeigt Limitierungen hin- 
sichtlich der Erweiterungen und der möglichen Dateigrößen. Die Erweiterung über 
beliebig viele Speichermedien (einzelne Geräte) ist nicht ohne Probleme möglich, 
da z.B. die Adressierung über die Verzeichnishierarchie nur endliche Speicherkapa- 
zität zulässt. 


17 Vgl. Mohamed 2020. 

18 Vgl. Clelland et al. 1999. 
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Als Lösung dieser Problematik ist die neue Organisationsform des Objektspei- 
chers% von den großen Datenanbietern im Internet (Cloudspeicher) eingeführt wor- 
den. Objektspeicher organisieren Daten weder in hierarchisch angeordneten Ver- 
zeichnisbäumen mit Ordnern und Unterordnern noch in Form des Zugriffs auf die 
kleinsten Speichereinheiten (den Blöcken) bereitgestellt. Stattdessen fassen sie Da- 
ten inklusive ihrer externen Dateiattribute, inhaltsbezogenen Metadaten und appli- 
kationsspezifischen Parametern zu einem dezidierten Objekt zusammen. Das Objekt 
wird mit einer eindeutigen Objekt-ID versehen, die aus dem Datei-Inhalt und den 
Metadaten berechnet wird. Über diese ID ist das Objekt unabhängig vom eigentli- 
chen Speicherort erreichbar. 

Der Vorteil dieser Speicherorganisation ist die einfache und beliebige Erweite- 
rung des Speicherplatzes. Der Zugriff auf die Daten erfolgt über ein Application Pro- 
gramming Interface (API) und über URL. Leider gibt es bisher dazu noch keine ein- 
heitliche Normierung. Die Ansprache der gespeicherten Informationen über einen 
weltweit nutzbaren Identifier stellt jedoch für die Zukunft in Aussicht, dass Daten 
einfach über den Aufruf einer URL genutzt werden können, ohne das darunterlie- 
gende Speichersystem lokal vorhalten zu müssen. 

Die Möglichkeit der Speicherung von Metadaten als direkte Annotation zu den 
Daten bietet aber auch die Chance, die deskriptiven Metadaten schon in die Datei- 
ablage zu integrieren. Damit wäre die Beschreibung von Daten mit Metainformatio- 
nen unabhängig von zusätzlichen externen Systemen zur separaten Speicherung 
dieser Metainformationen denkbar. Das könnte eine wesentliche Vereinfachung bei 
der Beschreibung von Forschungsdaten darstellen. 

Die fehlende Standardisierung dieser Speicherform stellt derzeit noch eine Hür- 
de für den praktischen Einsatz im Bereich des Forschungsdatenmanagements 
(FDM) dar. Jedoch kristallisiert sich die von Amazon entwickelt „Simple Storage Ser- 
vice“-Schnittstelle (S3-Schnittstelle) als potentieller Kandidat dafür heraus.” In na- 
her Zukunft sind hier wegweisende Entwicklungen zu erwarten. Der Objektspeicher 
könnte eine Lösung für die Problematik bei der Beschreibung von Forschungsdaten 
werden. 


1.3 Datensicherheit 


Auch wenn die Ausfallsicherheit von Speichersystemen durch redundanten Aufbau, 
z.B. bei RAID-Systemen, immer höher geworden ist, gibt es immer die Möglichkeit 
des Versagens technischer Geräte. Auch wenn die Verwendung von Cloud-Spei- 
chern, bei denen die redundante Speicherung Grundlage der Architektur ist, einen 


20 Vgl. Factor 2005. 
21 Vgl. https://www.theregister.co.uk/2016/07/15/the_history_boys_cas_and_object_storage_map/. 


334 —— Andreas Weber und Claudia Piesche 


Verlust der Daten immer unwahrscheinlicher macht, gibt es mittlerweile andere Ge- 
fahren fiir die Daten. In vernetzten Systemen ist es denkbar, dass Daten von ande- 
ren verändert werden. Diesen Manipulationen oder auch Fehlern des Speichermedi- 
ums (z.B. Verlust der Remanenz bei magnetischen Medien oder Materialzersetzung 
bei optischen Speichermedien) kann man durch Priifsummenmethoden entgegen- 
treten. Die Bitstream Preservation”, also die Kontrolle der Beibehaltung der ur- 
sprünglichen Bitfolgen, ist deshalb als grundlegende Erhaltungsstrategie” ein Be- 
standteil aller Systeme, die für die langfristige Speicherung von Daten im Einsatz 
sind. 

Aber nicht nur technische Aspekte sind bei der Speicherung von Daten zu be- 
achten. Insbesondere bei der Verarbeitung von schützenswerten Daten, z.B. perso- 
nenbezogenen Daten, stehen weitere Sicherheitsaspekte im Vordergrund. So ist die 
Speicherung personenbezogener Daten in Cloud-Speichern an besondere Anforde- 
rungen des Speichers gebunden.” Somit bestehen im Bereich der Forschung mit 
personenbezogenen Daten weiterhin Risiken bei der Inanspruchnahme von IT- 
Dienstleistungen und Cloud-Diensten. Diese Problematik ist bei der Veröffentli- 
chung von Daten ein besonderes Problem, da alleine die Anonymisierung der Daten 
nicht ausreicht, z. B. bei soziokulturellen oder ethnischen Forschungen. 


2 Datenkuration 


Wie die bisherigen Beispiele langfristiger Aufbewahrung zeigen, ist eine vollum- 
fängliche, langfristige Aufbewahrung von Informationen eine kostenintensive Kul- 
turaufgabe. Daher ist die Kuration von Forschungsdaten im Kontext langfristiger 
Speicherung und Verfügbarkeit unabdingbar. Sie beinhaltet im Wesentlichen vier 
Aufgabenbereiche hinsichtlich der aufzubewahrenden Daten: 

- Selektion, 

-  Standardisierung/Normalisierung, 

— Annotation archivierungsrelevanter Informationen durch Metadaten, 

-  Lizenzvergabe. 


22 S. http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_163.pdf. 
23 S. Abschnitt 3.1. 
24 Vgl. Borges 2016. 
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2.1 Auswahl archivierungswürdiger Forschungsdaten 


Aufgrund der stetig wachsenden Menge an digitalen (Forschungs-)Daten ist es der- 
zeit nicht möglich und wird auch in Zukunft nicht möglich sein, alle erzeugten Da- 
ten langfristig aufzubewahren. Außerhalb der Aufbewahrungspflicht für For- 
schungsdaten seitens Dritter, ist daher eine Selektion der aufzubewahrenden Daten 
sinnvoll. Wie kann man jedoch die Bedeutung von Forschungsdaten bestimmen? 
Gibt es dafür quantifizierbare Kriterien? Auf diese Fragen gibt es sicherlich keine 
eindeutige und objektive Antwort. Jedoch kann man anhand folgender Kriterien 
eine gute Einschätzung über die Archivwürdigkeit und die zukünftige Bedeutung 
der Daten treffen. Es gilt wie überall im Leben, mit Augenmaß zu entscheiden und 
im aktuellen Kontext eine möglichst realistische Abschätzung zukünftiger Entwick- 
lungen und Bedürfnisse zu machen. 

Grundsätzlich sollte die erste Frage sein: Wer oder was ist das Ziel der Langzeit- 
archivierung der jeweiligen Forschungsdaten, wie sehen also die Anforderungen 
der Nachnutzenden aus bzw. gibt es überhaupt potentielle Nachnutzende? Hat die- 
se Frage eine positive Antwort, muss überprüft werden, inwieweit die Daten in Zu- 
kunft neu generiert oder reproduziert werden können. Handelt es sich um unikale, 
nicht reproduzierbare Daten (z. B. Wetterbeobachtungen, Interviews mit Zeitzeugen, 
kontextabhängige Messungen/Beobachtungen oder historisch einmalige Aufnah- 
men), sollten diese eine hohe Priorität für die Langzeitarchivierung erhalten. Eben- 
so müssen Daten, die noch nicht vollständig wissenschaftlich untersucht sind, lang- 
fristig aufbewahrt werden. Empirische Studien (z.B. in den Sozial- und 
Verhaltenswissenschaften), die hinsichtlich eines bestimmten Kriteriums erhoben 
und ausgewertet wurden, können zusätzlich einen großen historischen Wert haben, 
insbesondere wenn es sich um ausgedehnte Längsschnittstudien handelt. Insofern 
sollte bei der Bewertung der Daten die Bedeutung für die zukünftige Forschung an- 
dere Wissenschaftsgebiete berücksichtigt werden. Im Gegensatz dazu ist es nicht 
unbedingt notwendig, Daten aus Standardverfahren oder Messergebnisse aufzube- 
wahren, die immer wieder und teilweise mit besseren Verfahren in der Zukunft neu 
generiert werden können. Man sollte daher bei der Beurteilung der Daten auch eine 
Vorhersage der technologischen Weiterentwicklung versuchen und diese in die 
Überlegungen einbeziehen. Insbesondere in der naturwissenschaftlichen Forschung 
ist diese Fragestellung wichtig bei der Selektion archivwürdiger Forschungsdaten. 

Unabhängig von jedem verfahrenstechnischen Einfluss muss die Qualität der 
Daten in die Auswahlentscheidung einbezogen werden.” Dazu sollte bei der Aus- 
wahlentscheidung eine technische und inhaltliche Qualitätsprüfung stattfinden. 
Die technische Qualitätsprüfung kann z.B. eine Validierung des Datenformats be- 


25 S.a. Beitrag von Kiraly und Brase, Kap. 4.3 in diesem Praxishandbuch. 
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inhalten oder die Priifung zur Einhaltung vorhandener Standards im Umgang mit 
Dateien (Strukturierung, Dateibenennung, Auflösung bei Bildformaten). 

Neben den genannten Kriterien zur Überprüfung der eigenen Daten gibt es 
auch noch externe, für die Forschungsbereiche spezifische Indizien, die die Bewer- 
tung der Archivwürdigkeit von Daten beeinflussen. Gibt es z.B. im wissenschaftli- 
chen Kontext schon eine hohe Abdeckung mit publizierten, korrekten und gut do- 
kumentierten Daten, ist es fraglich, ob zusätzliche Daten ergänzend sinnvoll oder 
eher redundant sind. 


2.2 Transformation/Normalisierung der Forschungsdaten 


Ist die Entscheidung zur langfristigen Aufbewahrung der Forschungsdaten getrof- 
fen, muss man sich Gedanken darübermachen, in welcher Form die Daten am sinn- 
vollsten aufbewahrt und in Zukunft wieder genutzt werden können. Die Frage ist 
also: Welche Zielgruppen könnte es geben und welche Anforderungen an die Au- 
thentizität der Daten, die Struktur und den Inhalt ergeben sich daraus? Liegt das 
Hauptaugenmerk auf der Konservierung des Wissens respektive der enthaltenen In- 
formation oder müssen zusätzlich dazu auch Struktur und Kontext erhalten blei- 
ben? Also muss z.B. ein proprietäres Format einer Herstellersoftware auch in Zu- 
kunft bedient werden können? Reicht die menschenlesbare Interpretierbarkeit aus 
(z.B. Text), um Informationen zu erhalten, oder müssen Struktur und Layout be- 
wahrt werden (z.B. bei Präsentationen oder Designvorlagen)? Aus der Beantwor- 
tung vorgenannter Fragen ergibt sich die Notwendigkeit der Beibehaltung des Origi- 
nalformats oder die Freiheit, die Dateien in sinnvolle Standardformate zu migrieren. 
Wichtig bei der Umwandlung in ein anderes Format ist dabei die Beibehaltung der 
Bedeutung der Daten. Sollte es möglich sein, die Daten vor der Archivierung in ein 
anderes Format zu transformieren, ohne dass notwendige Informationen verloren 
gehen, dann gilt: Je einfacher die Darstellung, umso besser. Konkret bedeutet dies, 
dass man versuchen sollte, Standarddatenformate”° zu nutzen und die Daten mög- 
lichst in eine menschenlesbare und -interpretierbare Form zu bringen. Je weniger 
Medienwechsel zur Darstellung der Informationen notwendig sind, umso geeigneter 
sind die Daten für die Archivierung und eine zukünftige Nachnutzung. 

Weiterhin muss man für die aufzubewahrenden Daten entscheiden, ob sie in 
vorliegender Fassung überhaupt gespeichert werden dürfen oder ob Vorkehrungen 
getroffen werden müssen, die Daten vor der Archivierung zu anonymisieren. Insbe- 


26 Eine Aufstellung archivfähiger Formate für unterschiedliche Objekttypen befindet sich im Ab- 
schnitt Praxistransfer (s. Abschnitt 4: Datenkuration — Normalisierung/Standardisierung). 
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sondere sind hier die Einhaltung des Datenschutzgesetzes und die Richtlinien zum 
Umgang mit sensiblen Daten zu berücksichtigen.” 


2.3 Begleitdokumentation der Forschungsdaten 


Die Grundlage der späteren Interpretierbarkeit von Archivgut ist die Beschreibung 
des Entstehungs- und Darstellungskontextes. Diese erfolgt im Sinne der Langzeitar- 
chivierung durch sogenannte Erhaltungsmetadaten. Grundsätzlich sind Erhaltungs- 
metadaten eine Kombination oder besser gesagt ein Subset schon vorhandener In- 
formationen aus den Metadaten zum digitalen Objekt. Sie entstammen bestenfalls 
den deskriptiven, strukturellen, administrativen und technischen Metainformatio- 
nen.” Zu den Informationen, die zur Erhaltung notwendig sind, gehören Referenz-, 
Provenienz-, Kontext- und Persistenz Informationen, sowie Angaben zu Zugriffs- 
rechten. Wichtige Standards für Erhaltungsmetadaten sind LMER” und PREMIS.*° 


2.4 Lizenzvergabe 


Das Urheberrecht gilt für alle Werke mit ausreichender Schöpfungshöhe, wodurch 
in der Regel die Person, die die Forschungsdaten als Urheberin geschöpft hat, das 
gesetzliche Recht an den Daten hat. Dies beinhaltet auch die Festlegung darüber, 
wie die eigenen Werke (Daten) durch andere genutzt werden dürfen. Man kann sein 
Urheberpersönlichkeitsrecht nicht abtreten, sehr wohl aber die Nutzungsrechte an 
den eigenen Werken, die sogenannten Urheberverwertungsrechte. Um eine zukünf- 
tige Nachnutzung der eigenen Forschungsdaten rechtlich abgesichert zu ermögli- 
chen, kann man daher eine Standardlizenz nutzen oder eigene Nachnutzungsbedin- 
gungen außerhalb einer solchen Standardlizenz festlegen.” Im Bereich der For- 
schungsdaten sind die Creative Commons Lizenzen” weitverbreitet. 


27 S.a. Beiträge von Lauber-Rönsberg, Kap. 1.4, sowie Rösch, Kap. 1.5, in diesem Praxishandbuch. 
28 Vgl. Verheul 2006, 46 ff. 

29 S.a. LMER, Version 1.2, Referenzbeschreibung deutsch, 2005 (urn:nbn:de:1111-2005041102); wei- 
tere Informationen in Kapitel 6.4 „LMER“ von Tobias Steinke in Neuroth et al. 2016, Kap. 6.14-Kap. 
6.16 (urn:nbn:de:0008-20090811294). 

30 Weitere Informationen in Kapitel 6.3 „PREMIS“ von Olaf Brandt in Neuroth et al. 2016, Kap. 6.9- 
Kap. 6.13 (urn:nbn:de:0008-20090811281). 

31 Ausführliche Informationen zur Lizenzierung von Forschungsdaten finden sich im Beitrag von 
Lauber-Rönsberg, Kap. 1.4, sowie Friedrich und Recker, Kap. 5.1 in diesem Praxishandbuch. 

32 S. https://creativecommons.org/use-remix/cc-licenses/. 
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3 Langzeitverfiigbarkeit 


Es gibt verschiedene wissenschaftsinterne und externe Griinde fiir die langfristige 
Verfiigbarmachung von Forschungsdaten. Zuallererst kann man bei vielen For- 
schungsprojekten davon ausgehen, dass der Forschungsgegenstand zum Ende der 
Projektlaufzeit selten komplett erforscht wurde, oder aber, dass sich in der Zukunft 
weitere Fragestellungen zum gleichen Gegenstand ergeben. Im Falle der Weiterbe- 
arbeitung einer Forschungsfrage ist es praktisch, wenn die früheren Daten noch zur 
Verfiigung stehen, wobei dies sowohl das Auffinden als auch die Nachnutzbarkeit 
umfasst.” Insofern liegt eine langfristig sichere Aufbewahrung der eigenen For- 
schungsdaten für eine zukünftige Weiternutzung schon im Interesse einer oder ei- 
nes jeden Forschenden selbst. Darüber hinaus gibt es Datenerhebungen, die nur 
einmalig möglich sind und nicht repliziert werden können. Klassische Beispiele sol- 
cher Daten sind die Beobachtungsergebnisse aus der Klimaforschung (z.B. Wetter- 
beobachtung, Temperaturmessungen, Satellitenbilder von Wetterphänomenen) 
oder die Aufzeichnung historischer Ereignisse. Aber auch im Bereich der Sprach- 
und soziokulturellen Forschung gibt es nicht-replizierbare Forschungsdaten, denkt 
man z.B. an die Beschäftigung mit historischen Sprachen, Dialekten oder Völkern.” 
Um die Möglichkeit der wissenschaftlichen Auseinandersetzung auch mit diesen 
Daten zu erhalten, müssen diese langfristig verfügbar und ausführlich dokumentiert 
sein. Schließlich erheben die meisten Forschungsförderer einen Anspruch auf lang- 
fristige Verfügbarhaltung von Forschungsergebnissen aus geförderten Projekten. Ei- 
nerseits soll dies eine Nachhaltigkeit aufgewandter Steuergelder sicherstellen, in- 
dem redundante Datenerhebungen vermieden werden und die Überprüfung von 
Forschungsergebnissen möglich wird. Andererseits garantieren bspw. die Anforde- 
rungen der Deutschen Forschungsgemeinschaft (DFG) im Umgang mit Daten die 
Einhaltung von Grundsätzen zur guten wissenschaftlichen Praxis.” 


Im Sinne der Langzeitarchivierung (LZA) geht es also darum, einerseits Forschungsdaten [...] 
langfristig digital zur Verfügung zu stellen und damit verifizierbar, interpretierbar und nach- 
nutzbar zu machen und andererseits Forschungsdaten auf der Basis von Forschungsinfrastruk- 
turen miteinander zu vernetzen und so insbesondere die potentielle Nachnutzung auch inter- 
disziplinär zu erhöhen. >° 


33 Ausführliche Informationen zur Auffindbarkeit und Nachnutzung von Forschungsdaten finden 
sich im Beitrag von Friedrich und Recker, Kap. 5.1 in diesem Praxishandbuch. 

34 Einen guten Überblick über gefährdete Sprachen liefert der „UNESCO Atlas of the World’s Lan- 
guages in Danger“ unter http://www.unesco.org/languages-atlas/. 

35 Hierzu: Standards guter wissenschaftlicher Praxis im Forschungsprozess in DFG, September 
2019, Leitlinien zur Sicherung guter wissenschaftlicher Praxis, Bonn: https://www.dfg.de/down- 
load/pdf/foerderung/rechtliche_rahmenbedingungen/gute_wissenschaftliche_praxis/kodex_gwp. 
pdf. 

36 Oßwald, Scheffel und Neuroth 2012, 15. 
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In Anbetracht der vielfältigen Ziele, die mit der langfristigen Aufbewahrung von 
Forschungsdaten verbunden sind, ergibt sich eine Vielzahl von Aufgaben, die durch 
die Langzeitarchivierung umgesetzt werden sollten: 

- Langfristige, sichere Aufbewahrung der Daten 

- Erhalt der Interpretierbarkeit der Daten 

-  Auffindbarkeit der Daten sicherstellen 

- Nachvollziehbarkeit der Daten gewährleisten 


Langzeitverfügbarkeit ist im Umfang und in der Art der langfristigen Aufbewahrung 
(abhängig vom zugrundeliegenden Objekttyp) grundsätzlich jedoch abzugrenzen 
vom Back-up von Daten. Wie das Beispiel der Hieroglyphen sehr gut aufzeigt, be- 
inhaltet schon die langfristige Verfügbarkeit analoger Forschungsdaten neben der 
„reinen“ Aufbewahrung der Daten mit geeigneter Technologie auch die Sicherstel- 
lung der langfristigen Auffindbarkeit und Interpretierbarkeit der Daten. Umso mehr 
trifft dies auf digitale Daten zu, die in unzähligen Formaten vorliegen können und 
abhängig von der Darstellung und Interpretierbarkeit durch sich verändernde Soft- 
ware sind. Digitale Daten müssen, um nachhaltig verfügbar gehalten zu werden, 
laufend überprüft und wenn notwendig konvertiert werden bzw. hinsichtlich ge- 
wählter Erhaltungsstrategie”’ behandelt werden. Die reine Datenspeicherung nützt 
wenig, wenn der originalgetreue Zugriff wegen veralteter Dateiformate oder nicht 
mehr verfügbarer Software nicht mehr möglich ist. 

Die Herausforderung hierbei ist eine gute Dokumentation der Daten, die den 
Entstehungskontext, das wissenschaftliche Umfeld und die technischen Anforde- 
rungen ebenso berücksichtigt wie die Beschreibung der wissenschaftlichen Inhalte 
und Bedeutung der Daten.** Noch dazu sollte die Dokumentation in standardisierter 
und maschinenlesbarer Form erfolgen, um Interoperabilität der kommunizierenden 
Systeme zu gewährleisten. Die Strategien, Modelle und Systeme in Bereich der 
Langzeitarchivierung sollen im Folgenden beschrieben werden. 


3.1 Erhaltungsstrategien in der Langzeitarchivierung 


Je nachdem, welche Anforderungen an die langfristige Verfügbarkeit von Daten, de- 
ren Interpretierbarkeit und an die Möglichkeiten der Nachnutzung gestellt werden, 
gibt es verschiedene Strategien der Datenspeicherung. Die sichere Aufbewahrung 
der Daten als korrekte Abfolge von Nullen und Einsen (in Bits und Bytes) auf einem 
Speichermedium wird als „Bitstream Preservation“ bezeichnet. 


37 S. folgender Abschnitt 3.1. 
38 Weiterführende Informationen zur Dokumentation von Forschungsdaten finden sich im Beitrag 
von Dierkes, Kap. 4.1 in diesem Praxishandbuch. 
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Im Sinne der Langzeitverfiigbarkeit digitaler Forschungsdaten muss jedoch zu- 
sätzlich zum physikalischen Erhalt der Daten auch die Darstellbarkeit und Interpre- 
tierbarkeit durch entsprechende Systeme gewährleistet werden. Ohne die Möglich- 
keit der Interpretation des vorhandenen Bitstreams können digitale Daten nicht 
dargestellt und damit nicht mehr genutzt werden. Der Erhalt der Lesbarkeit von For- 
schungsdaten kann dabei entweder durch die Migration der Ursprungsformate in 
aktuelle Formate erfolgen oder durch die Emulation oder Erhaltung der Ursprungs- 
umgebung der Datenentstehung.”” 


Bitstream Preservation 


Der rein physikalische Erhalt der Daten muss neben der sicheren Speicherung auch 
die Sicherstellung der Lesbarkeit vom physikalischen Datenträger beinhalten. Die 
Überprüfung der Aufbewahrung sollte also in zwei Richtungen erfolgen. Erstens 
muss garantiert werden, dass die auf dem Datenträger gespeicherten Daten auch 
nach längerer Zeit noch vorliegen und unverändert sind. Zweitens muss durch Er- 
neuerung der Speichermedien bzw. -technologien garantiert werden, dass Daten 
mit Hilfe aktueller Hardware aufbewahrt und gelesen werden können. 

Die Unversehrtheit der Daten kann durch die Nutzung von sog. „Fixity Checks“ 
in Form einer Checksummen-Bildung gewährleistet werden. Dabei wird aus den Da- 
ten mit Hilfe eines vorher definierten Algorithmus ein „Fingerabdruck“ generiert, 
welcher sich schon bei der kleinsten Änderung an den Daten ebenso verändert. So- 
mit können mit Hilfe von Checksummen Änderungen an Dateien überprüft und die 
sichere Speicherung und Migration überwacht werden. Im Fall der redundanten 
Speicherung auf unterschiedlichen Speicherbereichen dient die Checksumme zu- 
sätzlich dazu, die Gleichheit der Daten zu gewährleisten, indem von Zeit zu Zeit 
Checksummen der Daten verglichen werden und bei Unregelmäßigkeiten eine gül- 
tige Kopie zum Einsatz kommt. Für einen validen Vergleich redundant gespeicherter 
Daten müssen dafür mindestens drei Kopien herangezogen werden. Erst damit wird 
es möglich, die korrekte(n) Datei(en) von der fehlerhaften zu unterscheiden (sofern 
nur bei einer Kopie Fehler aufgetreten sind). 

Eine Erneuerung der Speichertechnologie kann entweder als Austausch vorhan- 
dener alter Hardware mit neuer Hardware des gleichen Typs geschehen (Refresh- 
ment) oder in der Nutzung neuer Hardwaretechnologien als Ersatz für alte nicht 
mehr gebräuchliche Hardware bestehen (Replication). In beiden Szenarien sollten 
Indikatoren, wie Fehlerraten beim Zugriff, durchschnittliche Zugriffshäufigkeit oder 


39 Vgl. auch im Folgenden, „Kapitel 8 - Digitale Erhaltungsstrategien.“ in Neuroth et al. 2016, Kap. 
8.1-Kap. 8.33 (urn:nbn:de:0008-2010062472). 
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Alter der Hardware in Verbindung mit der Lebensdauerangabe des Herstellers als 
Entscheidungsgrundlage fiir die Migration berücksichtigt werden. 


Formatmigration 


Die Formatmigration dient in der Regel dazu, Daten aus einem alten oder proprieta- 
ren Format in ein aktuelles, standardisiertes Datenformat zu überführen. Der Fokus 
liegt hierbei auf dem Erhalt der Struktur und Informationen aus den alten Daten 
und nicht auf einer bitweisen Kopie der Daten. Das Ziel ist, die Darstellbarkeit in 
aktuellen und zukiinftigen Systemen bzw. Anwendungen zu erhalten. 

Grundlage einer möglichst verlustfreien Formatmigration ist eine Standardisie- 
rung der zu migrierenden Formate und die Kenntnis ihres Aufbaus. Darum sollte 
bei der langfristigen Aufbewahrung von Forschungsdaten auf die Verwendung offe- 
ner, einfacher und standardisierter Formate geachtet werden. Je einfacher ein Da- 
tenformat gehalten ist, je höher ist die Wahrscheinlichkeit einer verlustarmen Form- 
atmigration. Bei der Verwendung proprietärer Formate muss man sich darauf 
verlassen, dass eine Migration durch den jeweiligen Anbieter implementiert wird 
und diese dann auch genutzt werden kann. 

Mit Hilfe der Formatmigration bleiben Informationen relativ leicht durch aktu- 
elle Systeme darstellbar. Jedoch birgt jede Migration die Gefahr von Informations- 
verlust in sich. Dies kann durch die Aufbewahrung der Originaldaten inklusive aller 
Migrationsschritte abgemildert werden, fiihrt aber wiederum zu einem hohen Spei- 
cherplatzbedarf. Außerdem steht die Formatmigration nicht für alle Datenformate 
zur Verfügung. 


Erhalt des Entstehungskontextes (Emulation und Computermuseum) 


Zum Informationserhalt aus Datenformaten, die nicht oder nur mit hohem Aufwand 
migriert werden können, gibt es die Möglichkeit den originalen Entstehungskontext 
zu erhalten (Hardware and Software Preservation) bzw. auf aktuellen Systemen 
künstlich wiederherzustellen (Emulation). 

Die Erhaltung der originalen Hardware und Software als Erhaltungsstrategie ist 
keine adäquate Methode der Langzeitarchivierung und hat eher musealen Charak- 
ter. Sicherlich liegt in der Aufbewahrung der authentischen Umgebung ein wissen- 
schafts- und technologiehistorischer Wert, jedoch hat diese Methode sowohl ein na- 
türliches Ende aufgrund des physischen Zerfalls der Hardware als auch einen 
erheblichen Ressourcenfaktor (Platzbedarf und Kosten). 

Eine vielversprechendere Strategie zur Vermeidung einer möglicherweise ver- 
lustbehafteten Formatmigration ist die Nachbildung der interpretierenden Software- 
bzw. Hardwareumgebung auf aktuellen Systemen. Diese sogenannte Emulation 
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kann dabei auf Anwendungsebene, auf der Ebene des Betriebssystems oder auf der 
Hardwareebene umgesetzt werden. Die Emulation auf Anwendungsebene sorgt da- 
fiir, dass die urspriinglichen Formate mit Hilfe der emulierten Software vollstandig 
interpretierbar sind. Grundlage dafür ist allerdings die Kenntnis über Struktur und 
Konzepte des Originalformats bzw. der Originalsoftware. Diese Art der Emulation 
sollte nur in Ausnahmefällen für wichtige und vielfach genutzte Formate ange- 
wandt werden, da Anpassungen je Format und Zielumgebung notwendig sind. Die 
Emulation des originalen Betriebssystems oder der Hardware erhält die Möglichkeit, 
die Ursprungssoftware in dieser Umgebung weiterhin zu benutzen. 

Die Erhaltung des Entstehungskontextes von Daten hat den Vorteil, dass so- 
wohl die Information als auch die Struktur der Ursprungsdaten bestehen bleiben 
kann und eine Migration nicht notwendig ist. Auf der anderen Seite ist der Aufwand 
für eine Emulation sehr hoch und muss bei jedem Technologiewechsel erneut nach- 
gezogen werden. 


3.2 OAIS-Modell 


In den letzten Jahren hat sich das „Open Archival Information System“ (OAIS) als 
Referenzmodell für die Langzeitarchivierung von Daten etabliert. Entstanden aus 
Standardisierungsaktivitäten zur Aufbewahrung von Daten aus Weltraummissio- 
nen“ entwickelte sich OAIS zur Grundlage vieler Systeme und Workflows in der di- 
gitalen Langzeitarchivierung. OAIS beschreibt dabei sowohl einen Standard (ISO 
14721) als auch ein Modell, welches das Zusammenwirken menschlicher und techni- 
scher Akteure innerhalb eines digitalen Langzeitarchivs als komplexes System be- 
schreibt mit der Zielsetzung, digitale Inhalte dauerhaft aufzubewahren und definier- 
ten Nutzergruppen (Designated Communities) zur Verfügung zu stellen.“ 

Dabei ist das Modell weder auf bestimmte Formate, Objekttypen oder Systemar- 
chitekturen festgelegt. Vielmehr ist OAIS offen und erweiterbar, um auf die Abläufe 
in Organisationen anpassbar zu sein. Es verfolgt damit einen ganzheitlichen Ansatz 
ohne Beschränkung auf die technische Sicht auf der einen oder auf die organisatori- 
sche Sicht auf der anderen Seite. Das OAIS-Modell betrachtet die Langzeitarchivie- 
rung als Zusammenspiel der in der Hauptsache digitalen Daten als Archivgut, die 
dem Archivierenden anvertraut werden und die dieser für definierte Nutzergruppen 
bzw. in definierten Nutzungsszenarien zur Verfügung stellt. 


40 Das 2003 als ISO 14721 verabschiedete OAIS-Referenzmodell wurde 2002 von der Data Archiving 
and Ingest Working Group des Consultative Committee for Space Data Systems (CCSDS) unter Feder- 
führung der NASA veröffentlicht. Weiterführende Informationen zur Entstehung des OAIS Modells 
finden sich in Brübach 2016, Kap. 4.3-Kap. 4.4, und Klump 2011, 118. 

41 The Reference Model for an Open Archival Information System (OAIS) (Volltext), s. http://public. 
ccsds.org/publications/archive/650x0m2.pdf. Deutsche Version: http://d-nb.info/104761314X/34. 
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Die Aufgaben Übernehmen, Bewerten, Erschließen, Bewahren und Bereitstellen 
des Archivguts aus dem klassischen Archivwesen werden auf die Anforderungen di- 
gitaler Daten und die Möglichkeiten digitaler Informationssysteme übertragen. Die 
Übertragung dieser Aufgaben auf ein digitales Archiv findet sich im Funktionsmodell 
des OAIS, welches aus sechs Aufgabenbereichen besteht, die den Ablauf der Lang- 
zeitarchivierung beschreiben (vgl. Abb. 1). Ergänzt wird das funktionale Modell um 
ein Datenmodell, welches anhand von Informationsobjekten das Archivgut selbst in 
drei Manifestationen beschreibt und Anforderungen an die Form und die Beschrei- 
bung dieser Informationsobjekte formuliert. 


Datenmodell 


Ein Informationspaket wird als logischer Container betrachtet, der neben den Pri- 
märdaten (Content Information) selber zusätzliche, optionale Erhaltungsmetadaten 
(Preservation Description Information) enthalten kann. Weiterhin gehört zu einem 
Informationspaket die Verpackungsinformation, welche die Inhaltsinformation und 
die Paketbeschreibungsinformationen sowohl miteinander verbindet als auch von- 
einander abgrenzt und das Suchen nach der Inhaltsinformation ermöglicht. 

Das OAIS unterscheidet zwischen der Manifestation des entgegengenommenen 
Informationsobjektes als Submission Information Package (SIP), dem um archivari- 
sche Metadaten ergänzten Objekt, dem sogenannten Archival Information Package 
(AIP) und den Repräsentationen dieser AIP für definierte Nutzungsszenarien, den 
sogenannten Dissemination Information Packages (DIP). Ein SIP wird durch den 
Produzenten zusammengestellt und zur Übernahme (Ingest) in das Archiv zur Ver- 
fügung gestellt. Aufgrund des Archivierungskonzepts des übernehmenden Systems 
wird daraus das AIP erstellt, wobei ein SIP sowohl 1:1 als AIP abgebildet werden, 
Teil eines größeren AIP (N:1) sein oder in mehrere AIP (1:N) aufgeteilt werden kann. 
Diese Entscheidung liegt in der Verantwortung des entgegennehmenden Archivs 
und in dessen Architektur begründet. Die Umformung des angebotenen SIP zu ei- 
nem AIP kann bspw. die Umwandlung des gelieferten Datenformats in ein archivie- 
rungskonformes Format beinhalten. Da das OAIS Modell keine Aussagen zu Daten- 
formaten trifft, kann es durchaus sinnvoll sein, vordefinierte Archivierungsformate 
im AIP zu nutzen. Bspw. könnte es die Vorgabe zur Archivierung von Texten als 
PDF/A geben, so dass während des Ingests alle Textformate in PDF/A konvertiert 
werden.”? 

Je nach Nutzungsinteresse kann beim Zugriff auf die Daten aus einem oder 
mehreren AIP ein DIP abgeleitet werden, welches das Archiv dann als Antwort auf 


42 Angaben zu geläufigen Archivierungsformaten finden sich im Abschnitt „Praxisbezug“ (s. Ab- 
schnitt 4: Datenkuration - Normalisierung/Standardisierung). 
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eine Anfrage an das OAIS dem Endnutzer zur Verfiigung stellt. Der Anfragende er- 
halt die Daten aus dem Archivsystem nicht, wie vormals gespeichert, sondern als 
auf seine Bediirfnisse zugeschnittenes Informationspaket. Eine OAIS-konforme Um- 
setzung muss an dieser Stelle die Authentizität und Integrität der Informationen si- 
cherstellen. 


ACCESS 


YIINAQOYd 
YIWNSNOD 


ADMINISTRATIO! 


MANAGEMENT 


Abb. 1: Das Funktionsmodell nach OAIS, s. Abschnitt 3.2 OAIS-Modell (Urheber der Illustration ist 
digitalbevaring.dk, die Nutzung erfolgt unter CC BY 2.5 Denmark licence) 


Funktionsmodell 


Die grundlegende Erhaltungsstrategie hinter dem OAIS-Modell ist die Formatmigra- 
tion mit dem Ziel der Erhaltung der Information bei der langfristigen Aufbewah- 
rung. Die Authentizität der Daten hat bei diesem Ansatz nachgeordnete Bedeutung. 
Insofern sind auch die einzelnen Module des Funktionsmodells Ausdruck dieser Er- 
haltungsstrategie. 

Funktionsmodule im Bereich Archivgutverwaltung: 
- Datenübernahme (Ingest) 
- Datenaufbewahrung (Archival Storage) 
— Szenario-basierter Datenzugriff (Dissemination/Access). 
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Das Funktionsmodul Dateniibernahme umfasst alle Dienste und Funktionen die zur 
tatsächlichen Annahme und Verarbeitung eines Informationspakets durch das Ar- 
chivsystem notwendig sind. Dabei wird das von einem Produzenten bereitgestellte 
SIP angenommen, gepriift und zu einem AIP weiterverarbeitet. 

Das SIP sollte neben den Primärdaten zusätzlich Belege für die Authentizität 
und die Herkunft der Informationsobjekte liefern, die das Archiv als Teil des AIP 
dauerhaft übernimmt und erhält. Schließlich sollte die erfolgreiche Übergabe durch 
eine Bestätigung an den Produzenten abgeschlossen werden. Ebenfalls Teil der 
Übernahme ist die Qualitätssicherung der Daten. Es wird geprüft, ob der Transfer 
des SIP erfolgreich ohne Schreib- und Lesefehler erfolgt ist, dazu werden z.B. 
Checksummen und Systemprotokolle genutzt. 

Zur Erzeugung eines AIP wird das SIP nach den Vorgaben des Archivs transfor- 
miert und um Metadaten angereichert. Dies kann bspw. eine Migration des Datei- 
formats, die Erzeugung zusätzlicher Repräsentationen und das Auslesen und 
Speichern zusätzlicher Metadaten (z.B. technische, administrative Metadaten) be- 
inhalten. Ebenso kann die Struktur des Informationspakets bei der Übernahme ver- 
ändert werden. Aus dem AIP werden die deskriptiven Metadaten übernommen und 
an die Datenverwaltung geliefert, um eine Recherche nach den archivierten Inhal- 
ten zu ermöglichen. Die Informationen zum Speicherort des AIP werden ebenfalls in 
die Datenverwaltung übernommen. 

Für den Datenzugriff auf archivierte Inhalte richtet die oder der Endnutzende 
(Consumer) Anfragen an das OAIS und erhält Antworten in der Form eines oder meh- 
rerer DIP. Zur Recherche nach relevanten Informationen und Generierung von einma- 
ligen oder regelmäßigen Anfragen stellen OAIS Systeme geeignete Tools zur Verfü- 
gung, bspw. einen Suchindex. Die Funktionseinheit Zugriff (Access) stellt die 
beschriebene Funktionalität zur Verfügung. Dabei werden eventuell bestehende Ein- 
schränkungen des Zugriffs berücksichtigt (z. B. Filterung personenbezogener Daten). 
Aus den gewünschten AIP werden DIP erzeugt und an die oder den Endnutzenden 
online oder offline ausgeliefert. Hierbei können die DIP Repräsentationen der Infor- 
mationsobjekte enthalten, die durch Transformation (Konvertierung in definierte 
Ausgabeformate) oder Bearbeitung (Ausschnitte, Bildbearbeitung) entstanden sind. 

Administrative Funktionsmodule 
- Datenmanagement 
-  Systemverwaltung 
- Preservation Planning 


Die administrativen Module, insbesondere die Systemverwaltung, beschreiben im 
Wesentlichen Aufgaben, die der Betreiber eines OAIS-Systems zu verantworten hat. 
Zu den Aufgaben im Datenmanagement gehört die Verwaltung und Aufbereitung 
der deskriptiven und archivarischen Metadaten. Services des Datenmanagements 
sind z.B. das Ausführen von Suchabfragen und die Ausgabe von Ergebnismengen, 
das Ausführen von ereignisbasierten, regelmäßigen Datenabfragen oder das Aus- 
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führen von verarbeitenden Algorithmen, die über die abgerufenen Daten laufen. 
Weiterhin können auf Grundlage der archivarischen Metadaten, Endnutzer-Zugriffs- 
Statistiken, Endnutzerabrechnungen, Sicherheitskontrollen, Ablaufpläne sowie Re- 
ports zum Monitoring erstellt werden. 

Das Preservation Planning umfasst sowohl die Beobachtung des technologi- 
schen Fortschritts, als auch die Entwicklung und Umsetzung der Erhaltungsmetho- 
den. Veraltete Datenformate müssen in aktuelle Formate konvertiert werden. Dabei 
werden durchgeführte Erhaltungsmaßnahmen dokumentiert, es wird auf die Erhal- 
tung der Integrität geachtet und Rechtsverbindlichkeiten werden berücksichtigt. 


4 Praxistransfer - Hilfestellungen für die Praxis 


Im Abschnitt Praxistransfer möchten wir ein paar Arbeitsmittel an die Hand geben, 
die im Alltag bei der Entscheidung über die Art und Dauer der Aufbewahrung von 
Forschungsdaten unterstützen sollen. Außerdem werden Systeme gelistet, die sich 
für die langfristige Speicherung von Forschungsdaten anbieten, inklusive Vor- und 
Nachteile. 


Datenspeicherung 


Um den sicheren physischen Erhalt von Forschungsdaten zu gewährleisten, sollten 

folgende Empfehlungen eingehalten werden: 

— Verwendung von mindestens drei redundanten Kopien der Daten und Generie- 
rung von Checksummen aus den Originaldateien. 

- Speicherung der Daten auf heterogenen, aber standardisierten Speichermedien, 
die im besten Fall auch noch organisatorisch und räumlich verteilt sind. 

- Regelmäßige Migration der Daten auf neue (aktuelle) Speichermedien mit inte- 
grierten Fixity Checks (Überprüfen der Checksummen) während des Umkopie- 
rens. Dabei kann die Migration sowohl auf Grundlage eines Datenträgeraus- 
tauschs (Refreshment) als auch als Technologiewechsel (Replication) stattfinden. 


Datenkuration - Selektion 


Die Archivwürdigkeit von Forschungsdaten kann man mit Hilfe folgender Checkliste 
überprüfen.“ Dabei erhebt die Liste keinen Anspruch auf Vollständigkeit. Sie kann 


43 Je mehr Fragen mit Ja beantwortet werden können, umso höher ist die Archivwürdigkeit der 
Forschungsdaten einzuschätzen. Eine Priorisierung der einzelnen Fragen ist durch die Reihenfolge 


4.2 Datenspeicherung, -kuration und Langzeitverfiigbarkeit —— 347 


lediglich eine grobe Hilfestellung bei der Bewertung von Forschungsdaten sein. Die 

letztendliche Entscheidung tiber die Relevanz von Forschungsdaten obliegt der Wis- 

senschaft respektive den Forschenden selber. 

- Bestehen Vorgaben Dritter (Fördergeber, Datenpolicies, Richtlinien der For- 
schungseinrichtung), die es notwendig machen, die Daten langfristig aufzube- 
wahren? 

— Hat man die notwendigen Nutzungsrechte an den Daten? Unter welchen Bedin- 
gungen besitzt man die Daten? 

- Sind die erhobenen Daten einmalig und nicht reproduzierbar oder sind die Kos- 
ten der Reproduktion höher als die Kosten der Langzeitaufbewahrung? 

- Liefert die Datenerhebung durch den technologischen Fortschritt voraussicht- 
lich keine besseren Ergebnisse? 

- Gibt es ein hohes Nachnutzungsinteresse an den Forschungsdaten? 

- Wurden die Daten noch nicht vollständig wissenschaftlich untersucht? 

- Sind die Daten charakteristisch oder untypisch für ein Forschungsgebiet bzw. 
handelt es sich um einmalige Forschungsergebnisse? 

— Haben die Daten möglicherweise eine allgemeine oder regionale historische Be- 
deutung? 

- Ist die Datenqualität technisch und inhaltlich gut? 

- Sind deskriptive Metadaten vollständig vorhanden oder können generiert wer- 
den? 

- Können die notwendigen Erhaltungsmetadaten (Referenz-, Provenienz-, Kon- 
text- und Persistenz-Informationen sowie Angaben zu Zugriffsrechten) geliefert 
werden? 


Datenkuration - Normalisierung/Standardisierung 


Im Laufe der Zeit haben sich für verschiedene Arten von Dokumenten quasi Stan- 
dards herausgebildet, die weit verbreitet sind und von vielen Systemen und Anwen- 
dungen unterstützt werden. Sollte die Wahl des Datenformats unabhängig von pro- 
prietären Formaten aus Messinstrumenten oder aus individueller (Hersteller-)Soft- 
ware sein, dann empfiehlt es sich die Forschungsdaten in folgende Formate zu 
transformieren.“* Weiterhin sollten möglichst einfache Strukturen und Formate ge- 
wählt werden, die am besten durch Menschen lesbar und interpretierbar sind (z.B. 


nicht impliziert, da diese im Zweifelsfall durch die Forschenden bzw. die Forschungscommunity 
selbst vorgenommen werden muss. 

44 Aktuelle Listen mit Empfehlungen für Standardformate zur Archivierung von Daten finden sich 
online bspw. im Katalog archivischer Dateiformate (KAD) unter: https://kost-ceco.ch/cms/kad_- 
main_de.html, auf der Webseite der ETH Zürich unter: https://documentation.library.ethz.ch/dis- 
play/RC/Archivtaugliche+Dateiformate, und auf der Webseite der Library of Congress unter: 
https://www.loc.gov/preservation/resources/rfs/TOC.html. 
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Präferenz von Textdokumenten gegenüber der binären Darstellung). Die Tabelle 
enthält eine Auswahl gängiger Dokumenttypen und eine Empfehlung für ein stabi- 


les und archivierungsfähiges Format.“ 


Tab. 1: Gängige Dokumenttypen samt Formatbezeichnung und Kürzel. 


Dokumenttyp 
3D-Anwendung 


Formatbezeichnung 


COLLADA Digital Asset Ex- 
change 


Dateinamen-erweiterung 


* dae 


Wavefront OB) * obj 
Polygon File Format * ply 
Extensible 3D *.x3d 
Audio Waveform Audio *.wav 
Bild/Rastergrafik Windows Bitmap *. bmp 
JPEG 2000 part 1 * jpg 
Open Microscopy Environ- *.ome. tiff 
ment - Tagged Image File For- 
mat 
Portable Network Graphics * png 
Tagged Image File Format * tif 
GIS (Geoinformationssystem) Geography Markup Language *.gml 


PDF (Portable Document For- 
mat) 


Unabhängiges textbasiertes 
Format 


Acrobat PDF/A - Portable Docu- 
ment Format 1a 


* pdf (PDF/A-1a) 


Acrobat PDF/A - Portable Docu- 
ment Format 1b 


Acrobat PDF/A - Portable Docu- 
ment Format 2a 


* pdf (PDF/A-1b) 


* pdf (PDF/A-2a) 


Acrobat PDF/A - Portable Docu- 
ment Format 2b 


* pdf (PDF/A-2b) 


Acrobat PDF/A - Portable Docu- 
ment Format 2u 


* pdf (PDF/A-2u) 


Character-Separated Values *.cSV 
Hypertext Markup Language * html 
Markdown *.md 
Standard Generalized Markup *.sgml 
Language 

Text file * txt 


45 Angelehnt an die LZV-Dateiformatliste des Hochschulbibliothekszentrum des Landes Nord- 
rhein-Westfalen (hbz), s. https://www.hbz-nrw.de/produkte/langzeitverfuegbarkeit/langzeitver- 
fuegbarkeit-fuer-hochschulen/lzv-dateiformatliste. 
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Dokumenttyp Formatbezeichnung Dateinamen-erweiterung 


Extensible Hypertext Markup * xhmtl 
Language 


Extensible Markup Language * xml 


Vektorgrafik Scalable Vector Graphics * svg 
Video Motion JPEG 2000 * mj2, *.mjp2 


Matroska Multimedia Container *.mkv (FFV1) 
(FF video codec 1) 


Webarchivierung Web ARChive * warc 


Langfristige Verfügbarkeit 


Je nach Anwendungsszenario, Ansprüchen an die langfristige Verfügbarkeit von 
Forschungsdaten und technischer Infrastruktur gibt es verschiedene Systeme, For- 
schungsdaten langfristig aufzubewahren. Aufgrund der Vielzahl der Alternativen 
zur langfristigen Speicherung von Forschungsdaten und der sehr unterschiedlichen 
Anforderungen und Kosten ist es notwendig, sich schon frühzeitig im Datenlebens- 
zyklus Gedanken darüber zu machen, welche Zielgruppen und Nachnutzungsszena- 
rien mit der Aufbewahrung der Daten erreicht werden sollen. 


OAIS-konforme Systeme 


OAIS-konforme Systeme zeichnen sich dadurch aus, dass sie Workflows zur Archi- 
vierung vieler Formattypen zur Verfügung stellen und die Funktionsmodule des 
OAIS-Modells, die dauerhafte Archivierung von digitalen Informationsobjekten und 
die Erhaltung dauerhaften Zugangs, implementieren. Die Validierung und Charakte- 
risierung der Formattypen erfolgt in der Regel durch Einbindung externer Tools wie 
z. B. DROID* und JHOVE” oder die Nutzung von Formatdatenbanken wie z. B. PRO- 
NOM.”® Genauso können im Allgemeinen neben den standardmäßig implementier- 
ten Auslieferungsformen auch Viewer für die verschiedenen Objekttypen als Plugins 
angebunden werden. Grundsätzlich können OAIS-konforme Systeme als „light ar- 
chive“ oder als „dark archive“ betrieben werden. Ein „light archive“ bedeutet, dass 
der Zugang zu den Materialien im Archivsystem für die Nutzer über ein Discovery 
System, wie z.B. einen Katalog/OPAC erfolgen. Dieser Index kann sowohl im Sys- 


46 Digital Record Object Identification (DROID) ist ein Open Source Tool zur automatischen For- 
materkennung von Dateien. S. http://digital-preservation.github.io/droid/. 

47 S. https://jhove.openpreservation.org/. 

48 S. https://www.nationalarchives.gov.uk/PRONOM/Default.aspx. 
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tem selbst betrieben oder auch extern angebunden werden. Beim ,,dark archive“ 
gibt es keine 6ffentliche Bereitstellung. Anwendungsfalle fiir das ,,dark archive“ 
sind z.B. Materialien, die zunächst nicht fiir eine Veröffentlichung vorgesehen sind, 
oder für welche bereits eigene Präsentationslösungen etabliert sind. 

Rosetta”? ist ein kommerzielles Produkt der Firma Ex Libris, das als OAIS-kon- 
formes Langzeitarchiv in Zusammenarbeit mit der Nationalbibliothek von Neusee- 
land entwickelt wurde und seit 2009 auf dem Markt verfügbar ist. Grundsätzlich ist 
Rosetta als System für Digital Preservation und Digital Asset Management mit indi- 
viduell konfigurierbaren Workflows für alle Arten von Daten- und Dateiformaten 
nutzbar. Es kann sowohl als zentrale Installation mit mehreren Mandanten (Institu- 
tionen) als auch dezentral als lokale Installation betrieben werden. Rosetta setzt auf 
ein flexibles Datenmodell, um alle Objekttypen abbilden zu können. Dieses Daten- 
modell orientiert sich dabei am Objektmodell des PREMIS-Standards und umfasst 
vier Level: Intellektuelle Entität, Repräsentation, File und Bitstream. Für alle vier 
Ebenen werden langzeitarchivierungsrelevante Metadaten geschrieben. Diese Meta- 
daten folgen dabei konzeptuell den von PREMIS vorgegebenen Entitäten: Objects, 
Events, Agents, Rights. Als Format für die Abbildung der Metadaten auf allen Ebe- 
nen wird der Metadata Encoding & Transmission Standard (METS)° eingesetzt, so- 
dass für jedes AIP eine Metadatendatei existiert. Im Bereich der deskriptiven Meta- 
daten unterstützt Rosetta primär Dublin Core.” Es ist aber möglich, Metadaten in 
anderen Standardformaten oder eigenen Originalformaten als Source-Metadaten 
nach Rosetta zu übernehmen. Langzeitarchivierung als Dienstleistung bieten im Be- 
reich der Bibliotheken in Deutschland SLUB Dresden,” TIB Hannover,” der Bayeri- 
sche Bibliotheksverbund™ und das hbz in Köln” an. 

Archivematica°® ist ein weiteres OAIS-konformes, universell einsetzbares Lang- 
zeitarchivierungssystem, welches die gesamte Breite der Langzeitarchivierungspro- 
zesse abdeckt. Das System wird in Großbritannien als zentrale Lösung zur langfristi- 
gen Aufbewahrung von Forschungsdaten eingesetzt. Es verfügt über keine eigene 
Endnutzeroberfläche, sondern nur über eine Verwaltungsoberfläche. Daher ist es 
vorwiegend als „dark archive“ zu verstehen, welches die Auslieferung von DIP 
bspw. an Repositorien ermöglicht. Das System beherrscht die gängigen Metadaten- 


49 S. https://www.exlibrisgroup.com/de/produkte/Rosetta. 

50 S. http://www.loc.gov/standards/mets/. 

51 S. https://www.dublincore.org/. 

52 S. https://slubarchiv.slub-dresden.de/. 

53 S. https://wiki.tib.eu/confluence/display/lza/Digitale+Langzeitarchivierung+an+der+TIB. 

54 S. https://www.bib-bvb.de/web/digitales-langzeitarchivierungssystem/home. 

55 S. https://www.hbz-nrw.de/produkte/langzeitverfuegbarkeit/langzeitverfuegbarkeit-fuer-hoch- 
schulen. 

56 S. https://www.archivematica.org/en/; Dokumentation: https://www.archivematica.org/en/ 
docs/archivematica-1.6/contents/. 
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formate (z.B. PREMIS, METS, Dublin Core). Die Open-Source-Software ist nicht man- 
dantenfähig, weswegen der Betrieb einer zentralen Instanz für einen Verbund nicht 
out-of-the-box unterstützt wird. Archivematica ermöglicht sowohl Hosting- als auch 
On-Premise-Lösungen. Hosting ist vor allem über die Services Arkivum? und Archi- 
vesDirect” verfügbar. Im nationalen Kontext wird das System in größerem Maßstab 
durch den Kooperativer Bibliotheksverbund Berlin-Brandenburg (KOBV)° als Ange- 
bot für die digitale Langzeitarchivierung genutzt.© Zu den internationalen Anwen- 
dern von Archivematica gehören zum Beispiel die University of British Columbia‘! 
oder das Museum of Modern Art (MoMA)® in New York. 

Ebenso wie Rosetta bietet auch Preservica™ ein kommerzielles Langzeitarchivie- 
rungssystem nach dem OAIS-Modell. Zentrale ebenso wie dezentrale Lösungen sind 
mit Preservica möglich. Das System ist mandantenfähig, d.h. man kann eine An- 
wendung mit verschiedenen Partitionen und Rechten fahren. Hierfür bietet der Her- 
steller drei Lösungen an, Software as a Service (SaaS), Hosting und On-Premise 
(Cloud Edition und Enterprise Edition). Es handelt sich prinzipiell um eine kommer- 
zielle Lösung; diese ist aber erweiterbar durch Open Source Tools. Zudem verfügt 
sie über einen eigenen Software Development Kit (SDK) und offene Programmier- 
schnittstellen (APIs). Allerdings stehen sowohl die Dokumentation als auch die Nut- 
zerhandbücher des Systems und die Foren zum Austausch der Anwender nur für 
Kunden zur Verfügung. Wie andere OAIS-Systeme auch, setzt Preservica Standard- 
File Format Registries und Migrationstools wie DROID, PRONOM und Linked Data 
Registries ein, um Erhaltungsmaßnahmen und Migrationspfade für mehr als 1200 
Dateiformate zu automatisieren. Deskriptive Metadaten können aus mehreren Stan- 
dard-Schemata ausgewählt werden (Encoded Archival Descriptor - EAD® — 2002, 
Metadata Object Description Schema - MODS - 3.4, Dublin Core 1.1). Alternativ 
können auch nutzerdefinierte deskriptive Metadatenschemata verwendet werden, 
z.B. XML Schema Definitions. Auf allen Ebenen werden sowohl deskriptive als auch 
langzeitarchivierungsrelevante Metadaten im XIP-Format verwaltet. Diese können 
bei der Bildung von SIP-Packages in METS und PREMIS-Metadaten konvertiert wer- 


57 S. http://arkivum.com/. 

58 S. http://www.archivesdirect.org/. 

59 S. https://www.kobv.de/. 

60 S. https://www.kobv.de/services/archivierung/lza/. 
61 S. https://www.ubc.ca/. 

62 S. https://www.moma.org/. 

63 S. https://www.artefactual.com/clients/. 

64 S. http://preservica.com/. 

65 S. https://www.loc.gov/ead/. 

66 S. http://www.loc.gov/standards/mods/. 
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den. Preservica wird z.B. an der Wellcome Library,’ an der Yale University® und 
der Danish National Library“ zur Archivierung diverser Objekttypen eingesetzt. 


(Fachspezifische) Forschungsdatenrepositorien 


Neben OAIS-konformen Systemen zur Langzeitarchivierung, die für die langfristige 
Aufbewahrung unterschiedlicher Objekttypen (z.B. Dokumente, AV-Medien, Retro- 
digitalisate, Forschungsdaten, Verwaltungsdaten) konzipiert sind, gibt es speziell 
auf Forschungsdaten ausgerichtete Infrastrukturen und Repositorien. Insbesondere 
sind hier die fachspezifischen Datenrepositorien zu nennen, die zur Publikation von 
Forschungsdaten entstanden sind.’° Die Publikation der Forschungsdaten auf ei- 
nem solchen Fachrepositorium beinhaltet auch die langfristige Speicherung der Da- 
ten. Jedoch gilt es an dieser Stelle zu beachten, dass es sich mehrheitlich um reine 
Bitstream Preservation handelt. 

Zur Archivierung und Publikation sogenannter Long-Tail-Forschungsdaten oder 
Daten, zu denen keine fachspezifischen Angebote vorhanden sind, stehen fachüber- 
greifende Repositorien zur Verfügung. Genannt werden sollen an dieser Stelle Figs- 
hare,” Zenodo,” Dryad” und RADAR” als aktuell prominente übergreifende Aufbe- 
wahrungssysteme. Figshare und Zenodo sind klassische Publikationssysteme. Hier 
ist die Archivierung der Daten keine eigenständige Funktionalität, sondern ge- 
schieht aufgrund der Tatsache, dass publizierte Daten verfügbar gehalten werden 
müssen. 

Das Research Data Repositorium (RADAR) ist das Ergebnis des gleichnamigen 
DFG-geförderten Projekts eines disziplinübergreifenden Projektteams (FIZ Karlsru- 
he,” Karlsruher Institut für Technologie — KIT”, Fakultät für Chemie und Pharmazie 


67 S. http://blog.wellcomelibrary.org/2011/07/preserving-our-digital-assets-1-sdb4/. 

68 S. https://yaledailynews.com/blog/2015/12/10/libraries-utilize-preservica/. 

69 S. https://preservica.com/resources/press-releases/state-and-university-library-of-denmark-col- 
laborates-with-preservica-to-safeguard-history-of-danish-cultural-heritage. 

70 Einen Uberblick und Unterstiitzung bei der Suche nach einem geeigneten Repositorium bietet 
re3data unter: http://www.re3data.org/, und RIsources der DFG unter: http://risources.dfg.de/. Eine 
ausführliche Liste der gängigen Repositorien, gegliedert nach Fachbereichen, wird vom Open Ac- 
cess Directory (OAD) oder dem Directory of Open Access Repositories (OpenDOAR) bereitgestellt. 
OAD: http://oad.simmons.edu/oadwiki/Data_repositories, OpenDOAR: http://v2.sherpa.ac.uk/ 
opendoar/. 

71 S. https://figshare.com/. 

72 S. https://zenodo.org/. 

73 S. https://datadryad.org/stash. 

74 S. https://www.radar-projekt.org/display/RD/Home. 

75 S. https://www.fiz-karlsruhe.de/. 

76 S. https://www.kit.edu/. 
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der LMU,” Leibniz-Institut fiir Pflanzenbiochemie — IPB’® und TIB Hannover’”’). Ziel 
des Projekts war der Aufbau einer Infrastruktur fiir die Datenarchivierung und -pu- 
blikation in der öffentlichen (dauerhaften) Domäne. RADAR ist disziplinübergrei- 
fend konzipiert und bietet eine zentrale Anlaufstelle zur Archivierung und Publika- 
tion vielfältiger Daten und Dateiformate. Je nach gewähltem Service Level (Archivie- 
rung mit und ohne Publikation der Daten) kann das System auf unterschiedliche 
Art genutzt werden. Es gibt ein zweistufiges Geschäftsmodell mit unterschiedlichem 
zeitlichem Horizont: Archivierung der Daten mit und ohne Datenpublikation. Das 
reine Archivierungsangebot umfasst dabei die langfristige Speicherung von Daten- 
paketen für eine vom Kunden festgelegte Haltefrist (5-15 Jahre). Nach Ablauf der 
Haltefrist kann diese verlängert oder die Daten gelöscht werden. Werden Daten pu- 
bliziert, gilt eine Haltefrist von mindestens 25 Jahren, wobei eine unbegrenzte Auf- 
bewahrung angestrebt wird. Auf jeden Fall werden die Daten nicht gelöscht. Die 
Langzeitverfügbarkeit der Daten wird über eine reine Bitstream Preservation sicher- 
gestellt. Diese ist abgesichert über MD5-Checksums, die beim Ingest, allen Kopier- 
vorgängen und beim Ausliefern überprüft werden. Während der Aufbewahrungs- 
frist verändert RADAR die gespeicherten Datenpakete nicht mehr, sondern sichert 
ausschließlich deren physischen Erhalt. 


Fazit 


Die langfristige Speicherung von Daten im Forschungsumfeld ist abhängig vom spe- 
ziellen Projekt und den gestellten Zielsetzungen. Da das Angebot an Speichermedi- 
en auch in Zukunft sehr breit, allerdings auch unterschiedlich kostenintensiv sein 
wird, wird es bei der physikalischen Speicherung von Daten immer eine Abwägung 
zwischen den Faktoren Speicherkosten, Speicherkapazität und benötigten Zugriffs- 
geschwindigkeiten geben. Weiterhin können rechtliche Randbedingungen Auswir- 
kungen auf die für ein Projekt verwendbaren Speicher Einfluss haben, was z.B. bei 
der Verarbeitung von personenbezogenen Daten eine Rolle spielt. Die Datensicher- 
heit bedingt weiterhin Überlegungen zur Erkennung korrumpierter Daten und deren 
Wiederherstellung durch geeignete Back-up-Strategien. 

Diese Aspekte sollten schon vor dem Beginn einer Forschung ausreichend ge- 
klärt werden. Genauso wie auch eine möglich Nachnutzung erhobener Daten schon 
von Anfang an mitgedacht werden sollte. 

Um dies in die aktuellen Entwicklungen im Forschungsdatenmanagement zu 
integrieren, ist die Kooperation verschiedener zentraler Einrichtungen mit den For- 


77 S. https://www.cup.uni-muenchen.de/. 
78 S. https://www.ipb-halle.de/. 
79 S. https://www.tib.eu/de/. 
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schenden wichtig. Beim Aufbau einer Infrastruktur zur Beratung zum Thema For- 
schungsdatenmanagement sollte daran gedacht werden, dass Fachleute im Bereich 
Speichersysteme und Datenkuration in die Planung einbezogen werden, ebenso wie 
Fachleute im Bereich von Metadaten und Standards in der Langzeitarchivierung. 
Serviceeinrichtungen im Bereich Rechnerinfrastruktur sollten eine Liste der Services 
inklusive der Kosten veröffentlichen, so dass sich die Forschenden bereits im Vor- 
feld der Beantragung von Fördermittel dazu ein realistisches Bild machen können. 
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Péter Kiraly und Jan Brase 
4.3 Qualitätsmanagement 


Abstract: Dieses Kapitel gibt einen Überblick über das Datenqualitätsmanagement. 
Es listet einige Ansätze zum Thema und seine grundlegenden Definitionen auf. Die 
Datenqualität hängt immer vom Kontext und Zweck der Daten ab, daher haben ver- 
schiedene Bereiche unterschiedliche Metriken zur Messung der Daten geschaffen. 
Es werden einige relevante Bereiche, wie Forschungsdaten, verknüpfte Daten, Da- 
tenjournalismus, untersucht, um ihre Messprinzipien und besten Praktiken hervor- 
zuheben. Schließlich werden einige praktische Beispiele, darunter Europeana (die 
europäische Kulturerbe-Plattform) und Forschungsdaten-Repositorien gezeigt. 


Einleitung 


Um sich mit dem Bereich Qualitätsmanagement bei Forschungsdaten zu beschäfti- 
gen, ist es sinnvoll, zuerst zu betrachten, wie Qualitätsmanagement in anderen 
Sammlungen von digitalen Inhalten schon seit geraumer Zeit betrieben wird. Im Be- 
reich Kulturerbe beispielsweise hat die Entwicklung von Katalogen eine lange Tradi- 
tion. Im Laufe der Jahrhunderte entwickelten Museen, Archive und Bibliotheken 
verschiedene Systeme zur Erfassung ihrer Bestände. Wie wird nun in diesen digita- 
len Systemen die Qualität sichergestellt? 

Zwar gibt keine einheitliche Definition für Qualität an sich, aber ein Großteil 
der Literatur! ist sich einig, dass die Qualität mit der „Eignung für einen Zweck“ 
übereinstimmen sollte. D.h. für die Qualität eines Objekts sollte gemessen werden, 
wie sehr das Objekt einen bestimmten Zweck unterstützt. Die Hauptziele der Meta- 
daten zum Kulturerbe sind die Registrierung der Sammlung und die Unterstützung 
der Nutzenden bei der Entdeckung. Die Funktionsanalyse des MARC 21-Formats? 
(das international am weitesten verbreitete Metadatenschema für bibliographische 
Datensätze) geht weiter und richtet Funktionsgruppen ein, wie z.B. Suche, Identi- 
tät, Auswahl, Verwaltung, Verarbeitung und Klassifizierung der zugrunde liegen- 
den Schemaelemente in diesen Kategorien.’ Durch die Analyse der Felder der ein- 
zelnen Datensätze können wir also genauer sagen, welche Aspekte der Qualität gut 
oder schlecht sind. 


1 Vgl. z.B. die „metadata assessment bibliography“ bei Zotero: https://www.zotero.org/groups/ 
488224/metadata_assessment. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 

2 Vgl. Desley 2003. MARC steht für Machine-Readable Cataloging. 

3 Vgl. IFLA 1998; Desley 2003; Library of Congress 2006. 
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Diese Katalogdaten dienen nicht nur der Registrierung und der Entdeckung der 
Materialien, sie sind auch die Quelle für zusätzliche Forschungen z.B. in den Geis- 
teswissenschaften. Der Katalog enthält viele Sachinformationen, die in anderen 
Quellen nicht (oder nicht organisiert) verfügbar sind, und so hätte man vor dem 
Zeitalter der Digitalisierung die gedruckten Kataloge der wichtigsten Sammlungen 
(z. B. British Library,“ Library of Congress? etc.) in den Lesesälen verschiedener For- 
schungseinrichtungen finden können. In den letzten zwei Jahrzehnten haben meh- 
rere Forschungsprojekte bestehende Bibliotheksmetadaten an verschiedene Arten 
von Volltextdatensätzen (z.B. optische Zeichenerkennung oder XML-kodierte Ver- 
sionen) angehängt, um zusätzliche Facetten für den Analyseprozess zu liefern, wie 
persönliche oder institutionelle Namen (Autoren, Verlage), geografische Informatio- 
nen (Erscheinungsorte), Zeitspanne usw. 

Nur ein paar Beispiele: KOLIMO (Corpus of Literary Modernism)® verwendet 
TEI-Headers (Text Encoding Initiative)’, welche Kataloginformationen sowie andere 
Metadaten enthalten, um Literatur und Sprachmerkmale zu extrahieren, die für ei- 
nen bestimmten Zeitraum oder für einen bestimmten Autor spezifisch sind. Om- 
niArt® ist ein Forschungsprojekt, basierend auf Metadaten des Rijksmuseum? (Ams- 
terdam), des Metropolitan Museum of Arts! (New York) und der Web Gallery of 
Art." Sie sammelten 432217 digitale Bilder mit kuratierten Metadaten (die größte 
Sammlung dieser Art), um eine kategorische Analyse durchzuführen. Benjamin 
Schmidt verwendet die HathiTrust” digital library und ihre Metadatensätze um 
Klassifikationsalgorithmen des maschinellen Lernens zu testen, bei denen er die Er- 
gebnisse mit den in den Metadatensätzen verfügbaren Themenüberschriften der Li- 
brary of Congress vergleichen kann.’ Die Gemeinsamkeiten dieser Projekte be- 
stehen darin, dass sie die Katalogdaten der Einrichtungen des kulturellen Erbes als 
primäre Quellen für ihre eigene Forschung verwenden. Es ist offensichtlich, dass 
die Qualität dieser Daten Auswirkungen auf die Schlussfolgerungen der Forschung 
haben könnte, und andererseits liegt es außerhalb der Verantwortlichkeiten und 


4 Über die Kataloge der British Library und ihrer Vorgänger: http://vll-minos.bl.uk/reshelp/findhel- 
prestype/catblhold/printedcatalogues/printedcats.html. 

5 Über den National Union Catalog (USA) siehe https://en.wikipedia.org/wiki/National_Union_Ca- 
talog. Digitale Ausgaben verfügbar über HathiTrust: https://catalog.hathitrust.org/Record/ 
000140237. 

6 S. https://kolimo.uni-goettingen.de/index.html. 

7 S. https://tei-c.org/. 

8 Vgl. Strezoski und Worring 2017. Das Projekt ist verfügbar über http://www.vistory-omniart.com/. 
9 S. https://www.rijksmuseum.nl/. 

10 S. https://www.metmuseum.org/. 

11 S. https://www.wga.hu. 

12 S. https://www.hathitrust.org. 

13 Vgl. Smith 2017. 
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Möglichkeiten einzelner Forschender (oder sogar einer Forschungsgruppe), die Auf- 
zeichnungen jeweils zu validieren und bei Bedarf zu korrigieren. 

Dieser Anwendungsfall von Daten zum Kulturerbe ist in letzter Zeit so häufig 
geworden, dass er vor zwei Jahren zu einem neuen Begriff geführt hat: „Sammlun- 
gen als Daten“, bzw. „collections as data“. Wie das Santa Barbara Statement on 
Collections as Data zusammenfasst: 


Seit Jahrzehnten bauen Institutionen für das Kulturerbe digitale Sammlungen auf. Gleichzeitig 
haben die Forscher auf rechnergestützte Mittel zurückgegriffen, um Fragen zu stellen und nach 
Mustern zu suchen. Diese Arbeit steht unter einer Vielzahl von Namen, einschließlich aber 
nicht beschränkt auf: Text-Mining, Datenvisualisierung, Mapping, Bildanalyse, Audioanalyse 
und Netzwerkanalyse. Mit bemerkenswerten Ausnahmen [...] haben Institutionen des Kulturer- 
bes seltene digitale Sammlungen aufgebaut oder den Zugang gestaltet, um die maschinelle 
Nutzung zu unterstützen. Wenn man über Sammlungen als Daten nachdenkt, signalisiert die- 
ses die Absicht, diese Herangehensweise zu ändern.!* 


Während einerseits Sammlungen als Datenbewegung die Bedeutung der Wiederver- 
wendbarkeit von Daten des Kulturerbes hervorheben, und wir erwarten, dass diese 
große und wichtige Bewegung Organisationen dabei unterstützen wird, mehr über 
die wissenschaftliche Nutzung oder ihre Metadaten nachzudenken," konzentrieren 
sich ihre Prinzipien andererseits auf den Zugang und die Beseitigung aktueller Bar- 
rieren, und sie übersehen dabei jedoch die Qualitätsaspekte. Der Aspekt der Quali- 
tätsbewertung, den wir hier betrachten, wäre ein ergänzendes Element neben den 
anderen Prinzipien. 


1 Metadatenqualitat 


Wir erkennen es [d.h. die Qualität der Metadaten], wenn wir es sehen, aber die Vermittlung 
des vollen Bündels von Annahmen und Erfahrungen, die es uns ermöglichen, es zu identifizie- 
ren, ist eine andere Sache. !® 


14 Collections as Data project team 2017. The Santa Barbara Statement on Collections as Data. v2. 
https://collectionsasdata.github.io/statement/. 

15 Ein Bericht aus dem Jahr 2016, der die Nutzung zweier wichtiger britischer Sammlungen des 
Kulturerbes analysiert, erwähnt, dass „die verfügbaren Zitationsnachweise eine wachsende Litera- 
tur zeigen, die mit EEBO [Early English Books Online] oder HCPP [House of Commons Parliamentary 
Papers]“ arbeitet und dass „Verschiebungen zu geisteswissenschaftlichen Datenwissenschaften und 
datengetriebener Forschung [...] für Wissenschaftler von wachsendem Interesse“ sind, vgl. Meyer 
und Eccles 2016, 51, 52-53. 

16 Bruce und Hillmann 2004, 1. 
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Die National Information Standards Organization (NISO) stellt eine Definition für 
Metadaten zur Verfügung, als ,, structured information that describes, explains, lo- 
cates, or otherwise represents something else“.'” Das Interessante an dieser Defini- 
tion ist die Liste der Verben: beschreiben, erklären, finden und repräsentieren. Me- 
tadaten sind keine statische Einheit, sie haben mehrere verschiedene Funktionen 
und sollten im Kontext anderer Einheiten stehen. Das steht im Einklang mit dem 
berühmten Qualitätssicherungsslogan „fitness for purpose“. Es gibt verschiedene 
Definitionen dieses Slogans, unter anderem kann man ihn aufbrechen in: 

- Erfüllung einer Spezifikation oder der angegebenen Ergebnisse; 

- gemessen an dem, was als Ziel der Einheit angesehen wird; 

- zur Erreichung der institutionellen Mission und der Ziele. 


Aus diesen Definitionen können wir zwei wichtige Schlussfolgerungen ziehen: 

- Die Qualität eines Objekts ist kein absoluter Wert, sie hängt vom Kontext des 
Objekts ab, welche Ziele die Benutzenden im aktuellen Kontext mit Hilfe des 
Objekts erreichen möchten. 

- Die Qualität ist ein facettenreicher Wert. Da das Objekt unterschiedliche Funk- 
tionen haben kann, sollten wir die Erfüllung von ihnen unabhängig voneinan- 
der bewerten. 


Die Definition von Metadaten durch die NISO passt gut in diesen Rahmen, da sie die 
Vielschichtigkeit und den Kontext der Metadaten hervorhebt. 

In einer aggregierten Metadatensammlung wie z.B. Europeana!® besteht der 
Hauptzweck der Metadaten darin, Zugangspunkte zu den Objekten bereitzustellen, 
die von diesen Metadaten beschrieben werden (und die in den Institutionen, die 
das Kulturerbe bereitstellen, gespeichert sind). Wenn die in Europeana gespeicher- 
ten Metadaten von geringer Qualität sind oder fehlen, kann der Dienst keine Zu- 
gangspunkte bereitstellen und der Benutzer wird das Objekt nicht verwenden. 

Wie Bruce und Hillmann erklären, könnte eine Expertin bzw. ein Experte erken- 
nen, ob ein bestimmter Metadatensatz „gut“ oder „schlecht“ ist. Wenn wir dieses 
Wissen formalisieren wollen, müssten wir zuerst die Dimensionen der Qualität, Me- 
triken und Messmethoden festlegen. 


17 National Information Standards Organization 2007. „strukturierte Informationen, die etwas an- 
deres beschreiben, erklären, lokalisieren oder anderweitig darstellen“ (deutsche Übersetzung Kira- 
ly/Brase). 

18 S. https://europeana.eu/. 
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2 Metriken in der Literatur 


In der Literatur der Metadatenqualitätsbewertung findet man eine Reihe von metri- 
schen Definitionen. Im Folgenden gehen wir auf einige von ihnen ein, die in diesem 
Zusammenhang als relevant erachtet wurden. 

Während es sich auf den Kontext des Kulturerbes bezieht, definiert die oben be- 
reits zitierte Seminararbeit von Bruce und Hillmann Datenqualität.” Palavitsinis 
fasste sie in seiner Doktorarbeit folgendermaßen zusammen: 

- Vollständigkeit - Completeness: Anzahl der vom Annotator ausgefüllten Metada- 
tenelemente im Vergleich zur Gesamtzahl der Elemente im Anwendungsprofil. 

- Genauigkeit - Accuracy: In einem genauen Metadatensatz entsprechen die in 
den Feldern enthaltenen Daten der zu beschreibenden Ressource. 

— Konsistenz — Consistency: Konsistenz misst den Grad, in dem die bereitgestellten 
Metadatenwerte dem entsprechen, was durch das Metadaten-Anwendungsprofil 
definiert ist. 

- Objektivität — Objectiveness: Grad, in dem die bereitgestellten Metadatenwerte 
die Ressource unvoreingenommen beschreiben, ohne zu unter- oder übertrei- 
ben. 

- Angemessenheit — Appropriateness: Grad, in dem die angegebenen Metadaten- 
werte den Einsatz von Suchmechanismen auf dem Repositorium erleichtern. 

- Korrektheit — Correctness: Der Grad, in dem die in den Metadaten verwendete 
Sprache syntaktisch und grammatikalisch korrekt ist. 


Derselbe Autor listet in einer Analyse der Metadatenqualitätsliteratur, die sich 
hauptsächlich auf die Metadaten der Learning Object Repositories” konzentriert, 
die folgenden zusätzlichen Dimensionen auf, die von verschiedenen Autorinnen 
und Autoren vorgeschlagen werden: Zugänglichkeit, Konformität, Währung, Ver- 
ständlichkeit, Objektivität, Präsentation, Herkunft, Relevanz und Aktualität. Er wie- 
derholt auch die Kategorisierung von Lee et al.” die Qualitätsdimensionen betref- 
fend: 

— Intrinsische Metadatenqualität: stellt Dimensionen dar, die erkennen, dass Me- 
tadaten unabhängig vom Kontext, in dem sie verwendet werden, eine angebo- 
rene Korrektheit aufweisen können. Bspw. können Metadaten für ein digitales 
Objekt mehr oder weniger „genau“ oder „unvoreingenommen“ sein. 

-  Kontextuelle Metadatenqualitdt: erkennt an, dass die wahrgenommene Qualität 
je nach der jeweiligen Aufgabe variieren kann und dass die Qualität relevant, 


19 Vgl. Bruce und Hillmann 2004, 4-10. 

20 Vgl. Palavitsinis 2014, 87-88. 

21 S. https://en.wikipedia.org/wiki/Learning_object_metadata. 
22 Vgl. Lee et al. 2002, 134. 
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zeitnah, vollständig und in ihrer Höhe angemessen sein muss, um dem Zweck, 
für den die Informationen verwendet werden, einen Mehrwert zu verleihen. 

—  Reprdsentative Metadatenqualität: bezieht sich auf den Grad, in dem die zu be- 
wertenden Metadaten leicht verständlich sind und in einer klaren, prägnanten 
und konsistenten Weise dargestellt werden. 

— Zugdngliche Metadatenqualitdt: verweist auf die Leichtigkeit, mit der die Meta- 
daten zugänglich sind, einschließlich der Verfügbarkeit der Metadaten und der 
Aktualität ihres Eingangs. 


Interessant ist ebenfalls die Arbeit von Zaveri et al. über Linked Data Quality (LD 

Quality).” Sie wurde zum meist zitierten Artikel in Bezug auf die Datenqualität. Za- 

verli et al. untersuchten, welche Qualitätsdimensionen und -metriken von anderen 

Autorinnen und Autoren vorgeschlagen wurden, und gruppierten einzelne Metriken 

in die folgenden Dimensionen: 

— Dimensionen der Verfügbarkeit: Beinhaltet Bewertungen zur Zugänglichkeit, Li- 
zensierung, Vernetzung, Sicherheit und Performance. 

—  Intrinsische Dimensionen: Beinhalten Bewertungen zur syntaktischen Validität, 
semantische Genauigkeit, Konsistenz, Prägnanz und Vollständigkeit. 

—  Kontextuelle Dimensionen: Beinhalten Bewertungen zur Relevanz, Vertrauens- 
wiirdigkeit, Verständlichkeit und Aktualität. 

—  Reprdsentative Dimensionen: Beinhalten Bewertungen zur repräsentativen Prä- 
gnanz, Interoperabilität, Interpretierbarkeit und Vielseitigkeit. 


Einige dieser Metriken sind nur im Zusammenhang mit LD relevant (so fragt die Be- 
wertung der Zugänglichkeit auch Elemente ab, die LD-technologiespezifisch sind, 
wie SPARQL-Endpunkt™ oder RDF-Dump”). Auf der anderen Seite gibt es viele Me- 
triken, die auch für nicht verknüpfte Metadaten nützlich sind, wie wir in den nächs- 
ten Abschnitten noch sehen werden. 


2.1 FAIR Metriken 


Eine der wichtigsten aktuellen Entwicklungen im Bereich des Forschungsdatenma- 
nagements (FDM) war die Formulierung der FAIR-Grundsätze.?° „Die FAIR-Grund- 


23 Vgl. Zaveri et al. 2015. 

24 SPARQL ist eine rekursive Abkürzung für ,SPARQL Protocol and RDF Query Language“. Sie wird 
verwendet, um Daten im Resource-Description-Framework-Format (RDF-Format) zu durchsuchen 
oder zu verändern. S. https://www.w3.org/TR/rdf-sparql-query/ und https://www.w3.org/RDF. 

25 RDF-Dump nennt man eine herunterladbare Datei, die RDF statements in einem der RDF Seria- 
lisierungsformate enthält. 

26 Vgl. Wilkinson et al. 2016. 
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sätze enthalten Richtlinien für die Veröffentlichung digitaler Ressourcen wie Daten- 
sätze, Code, Workflows und Forschungsobjekte in einer Weise die sie auffindbar, 
zugänglich, interoperabel und wiederverwendbar macht.“” Es wurde zum Aus- 
gangspunkt vieler verschiedener Projekte, die entweder diese Prinzipien umsetzen 
oder zusätzliche Erweiterungen untersuchen. Eines davon ist FAIRMetrics.”° Es kon- 
zentriert sich auf die Messaspekte der FAIR-Prinzipien: Wie können wir Metriken 
aufstellen, auf deren Grundlage wir die „Fairness“ von Forschungsdaten validieren 
können? 

Die Autorinnen und Autoren schlugen vor, dass gute Metriken im Allgemeinen 
die folgenden Eigenschaften haben sollten. Sie sollten: 
- klar, 
- realistisch, 
-  unterscheidend, 
- messbar und 
- universell sein. 


Es gibt 15 FAIR-Prinzipien, und für jedes gibt es eine Metrik. Jede Metrik beantwortet 
Fragen wie: „Was wird gemessen?“, „Warum sollen wir es messen?“, „Wie messen 
wir es?“, „Was ist ein gültiges Ergebnis?“, „Für welche digitalen Ressourcen ist das 
relevant?“ usw. 

Die Autorinnen und Autoren haben die einzelnen Metriken als Nanopublikatio- 
nen veröffentlicht und arbeiten an einer Implementierung. Neben den Metriken de- 
finierten sie „Maturity Indicator Tests“, die als REST API verfügbar sind, unterstützt 
durch eine Ruby-basierte Software namens FAIR Evaluator”. Reifegradindikatoren 
sind ein offener Satz von Kennzahlen. Uber das Kernset (das von der FAIRMetrics 
vorgestellt wurde)” hinaus luden die Autorinnen und Autoren die Forschungsge- 
meinschaften ein, ihre eigenen Indikatoren zu entwickeln, denn sie betonen: „Wir 
betrachten FAIR als ein Kontinuum von ‚Verhaltensweisen‘, die von einer Daten- 
quelle dargestellt werden, um zunehmend die maschinelle Auffindbarkeit und (Wie- 
der-)Nutzung zu ermöglichen.“?! Die Elemente von FAIRmetrics sind die Folgenden: 
- Fl: Identifier Uniqueness — Eindeutigkeit des Identifier: Ob es ein Schema zur ein- 

deutigen Identifizierung der digitalen Ressource gibt. 


27 Vgl. Wilkinson et al. 2018. 

28 Vgl. Wilkinson et al. 2018; GO FAIR Metrics Group n.d. 

29 S. https://fairsharing.github.io/FAIR-Evaluator-FrontEnd/#!/. Der zugrunde liegende Software- 
Code ist verfügbar unter: https://github.com/FAIRMetrics/Metrics/tree/master/MetricsEvaluator- 
Code. 

30 S. das Metrik Repository der FAIR Metrics Group: https://github.com/FAIRMetrics/Metrics/. 
31 https://github.com/FAIRMetrics/Metrics. 
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- Fl: Identifier persistence — Persistenz des Identifier: Ob es eine Richtlinie gibt, 
die beschreibt, was der Anbieter im Falle einer Vernachlässigung eines Identifi- 
zierungsschemas tun wird. 

— F2: Machine-readability of metadata — Maschinenlesbarkeit der Metadaten: Die 
Verfügbarkeit von maschinenlesbaren Metadaten, die eine digitale Ressource 
beschreiben. 

— F3: Resource Identifier in Metadata - Identifier in den Metadaten: Ob das Meta- 
datendokument den global eindeutigen und persistenten Identifier für die digi- 
tale Ressource enthält. 

— F4: Indexed in a searchable resource — Indexierung in suchbaren Ressourcen: Der 
Grad, in dem die digitale Ressource über webbasierte Suchmaschinen gefunden 
werden kann. 

— 1.1? Access Protocol - Zugangsprotokoll: Die Art und Nutzungsbeschränkun- 
gen des Zugriffsprotokolls. 

—  A1.2: Access authorization — Zugangsauthorisierung: Spezifikation eines Proto- 
kolls fiir den Zugriff auf eingeschrankte Inhalte. 

— A2: Metadata Longevity — Langlebigkeit der Metadaten: Die Existenz von Meta- 
daten auch bei Abwesenheit/Entfernung von Daten. 

— Tl: Use a Knowledge Representation Language — Verwendung einer Wissensreprä- 
sentativen Sprache: Verwendung einer formalen, zugänglichen, gemeinsamen 
und allgemein anwendbaren Sprache zur Wissensrepräsentation. 

— 12: Use FAIR Vocabularies — Verwendung von FAIRen Vokabularien: Die Metada- 
tenwerte und qualifizierten Beziehungen sollten selbst FAIR sein, z.B. Begriffe 
aus offenen, von der Gemeinschaft akzeptierten Vokabularen, die in einem ge- 
eigneten Wissensaustauschformat veröffentlicht werden. 

— BB: Use Qualified References — Verwendung von qualifizierten Verweisen: Bezie- 
hungen innerhalb von (Meta-)Daten sowie zwischen lokalen und Fremddaten 
haben eine explizite und „sinnvolle“ semantische Bedeutung. 

— R1.1: Accessible Usage License — Zugängliche Nutzungslizenz: Das Vorhanden- 
sein einer dokumentierten Lizenz, sowohl fiir die Daten als auch fiir die zugehö- 
rigen Metadaten. Außerdem die Möglichkeit (unabhängig voneinander), die Do- 
kumente zu den Lizenzen abzurufen. 

-  R1.2: Detailed Provenance - Detaillierte Herkunftsinformationen: Den Daten sind 
Herkunftsinformationen zugeordnet, die mindestens zwei primäre Arten von 
Herkunftsinformationen abdecken: Wer/was/wann die Daten produziert hat 
(z.B. für Zitate); Warum/wie die Daten produziert wurden (d.h., um den Kon- 
text und die Relevanz der Daten zu verstehen). 


32 Es gibt auch A1 und R1 Prinzipien in FAIR. Diese fehlen in FAIRmetrics. 
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— R1.3: Meets Community Standards - Genügt den Standards der Gemeinschaft: 
Zertifizierung der Ressource, die den Gemeinschaftsstandards entspricht, durch 
eine anerkannte Stelle. 


Die meisten dieser Metriken messen eher das Datenrepository als einzelne For- 
schungsdatensatze. Es ist zu beachten, dass FAIRmetrics keine klassischen Metada- 
tenqualitätsmetriken (wie Vollständigkeit, Genauigkeit usw.) abdeckt, so dass selbst 
bei einer robusten Implementierung noch Raum für zukünftige Forschungen zur 
Forschungs(meta)datenqualität bleibt und andererseits einige dieser Metriken für 
Daten zum Kulturerbe anwendbar und nachnutzbar sind (z.B. würden persistente 
Identifier den Aufnahmeprozess von Europeana unterstützen, so dass eine Metrik 
zur Identifier persistence hier ein nützlicher Indikator wäre). 


2.2 Vokabulare zur Validierung von Linked Data 


Die Domäne von LD (oder Semantic Web) basiert auf der „Open World“-Annahme, 
die besagt, dass Objekte (Entitäten) und Aussagen über diese Objekte getrennt sind, 
verschiedene Akteurinnen und Akteure könnten Aussagen über dasselbe Objekt er- 
stellen. Praktisch bedeutet das, dass es kein abgeschlossenes Konzept einer Metada- 
tenbeschreibung gibt, da das Objekt keine klaren Grenzen hat. Die traditionellen da- 
teibasierten Systeme haben Schemata, die beschreiben, welche Art von Aussagen 
über eine Entität gemacht werden können. So besteht beispielsweise das Dublin 
Core Metadata Element Set 1.1?" aus 15 Metadatenelementen. 

Wenn wir z.B. die Farbe eines Buches in diesem Schema neu aufnehmen möch- 
ten, können wir das nicht direkt tun. Natürlich können wir diese Informationen in 
ein semantisch generischeres Feld einfügen, wie z.B. „Format“, aber dann verlieren 
wir die Spezifität, und die Farbe wird zusammen mit anderen Merkmalen wie Größe, 
Abmessungen usw. gespeichert. Im Kontext von LD ist die Situation anders: Wir 
können leicht eine neue Eigenschaft einführen und eine Anweisung erstellen, aber 
wir verlieren die Kontrolle über das Schema. Wir können nicht sagen, ob die neue 
Eigenschaft gültig ist oder nicht. 

Um dieses Problem zu lösen, hat die W3C die Arbeitsgruppe RDF Data Shapes” 
eingerichtet, um „eine Sprache zu entwickeln zur Definition struktureller Einschrän- 


33 S. https://en.wikipedia.org/wiki/Open-world_assumption. 
34 S. https://www.dublincore.org/specifications/dublin-core/dces/1999-07-02/. 
35 S. https://www.w3.org/2014/data-shapes/wiki/Main_Page. 
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kungen für RDF-Grafiken“.” Eines der Ergebnisse dieses Ansatzes ist die Shapes 
Constraint Language (SHACL).?” 

SHACL hat ein Vokabular definiert (siehe Tab. 1) auf dem man Validierungsre- 
geln erstellen kann. Es werden keine direkten Metriken festgelegt, aber diese Ein- 
schränkungen sind sehr nützliche Bausteine eines Datenqualitätsmesssystems. Die 
Implementierung von SHACL basiert auf LD, aber die Definitionen sind auch in an- 
deren Kontexten sinnvoll. 


Tab. 1: Kernbedingungen in SHACL 


Kategorie Einschränkungen 
Kardinalität minCount, maxCount 

Typen von Werten und Klassen datatype, nodeKind 

Formen node, property, in, hasValue 
Wertebereich minlnclusive, maxInclusive, 


minExclusive, maxExclusive 


Stringbasiert minLength, maxLength, pattern, stem, 
uniqueLang 

Logische Einschrankungen not, and, or, xone 

Abgeschlossene Formen closed, ignoredProperties 

Einschränkungen für Eigenschaftspaare equals, disjoint, lessThan, 
lessThanOrEquals 

Nicht validierende Einschränkungen name, value, defaultValue 

Qualizierte Formen qualiedValueShape, qualiedMinCount, 


qualiedMaxCount 


Im Rahmen des Europeana Data Quality Committee? planen wir, häufig auftretende 
Metadatenprobleme (oder „Anti-Patterns“) mit SHACL zu definieren. 


2.3 Organisation von Themen nach verantwortlichen Akteuren 


Christopher Groskopf, der einen Leitfaden zur Erkennung von Datenproblemen für 
Datenjournalisten geschrieben hat,” verfolgt einen anderen Ansatz. Er verfasste ei- 
nen praktischen Leitfaden, d.h. er organisiert Probleme basierend darauf, wer sie 
lösen kann. Seine wichtigsten Botschaften sind: 


36 S. https://www.w3.org/2014/data-shapes/charter. 

37 S. https://www.w3.org/TR/shacl. Wir sollten feststellen, dass es für das gleiche Problem einen 
anderen Ansatz gibt: Shape Expressions (ShEx), verfügbar unter: http://shex.io. 

38 S. https://pro.europeana.eu/project/data-quality-committee. 

39 Vgl. Groskopf 2015. 
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Sei skeptisch bezüglich der Daten. 
Überprüfe mit einer explorativen Datenanalyse. 
Überprüfe früh, überprüfe oft (check it early, check it often). 


Seine Kategorisierung ist die folgende: 
Probleme, die die Quelle lösen sollte: 


Werte fehlen. 

Nullen ersetzen fehlende Werte. 
Daten fehlen, die da sein sollten. 
Zeilen oder Werte sind doppelt. 

Die Rechtschreibung ist inkonsistent. 
Die Reihenfolge der Namen ist inkonsistent. 
Datenformate sind inkonsistent. 
Einheiten sind nicht angegeben. 

Die Kategorien sind schlecht gewählt. 
Feldnamen sind nicht eindeutig. 

Die Herkunft ist nicht dokumentiert. 
Verdächtige Zahlen sind vorhanden. 
Die Daten sind zu grob. 


Die Summen weichen von der veröffentlichten Gesamtmenge ab. 


Spreadsheet hat 65 536 Zeilen.” 
Spreadsheet hat Daten in 1900 oder 1904.” 
Text wurde in Zahlen umgewandelt. 


Probleme, die man selber lösen sollte: 


Text ist verstümmelt. 

Daten sind in einem PDF. 

Daten sind zu feinkörnig. 

Daten wurden von Menschen eingegeben. 
Aggregationen wurden auf fehlenden Werten berechnet. 
Die Probe ist nicht zufällig. 

Margin-of-error ist zu groß. 

Margin-of-error ist unbekannt.”? 

Die Probe ist verzerrt. 

Daten wurden manuell verändert. 


— 367 


40 Die maximale Anzahl von Zeilen in älteren Versionen von MS Excel Tabellen war 65 536. 

41 Das Standarddatum, ab dem MS Excel alle anderen Daten berechnet, ist der 1. Januar 1900, 1. 
Januar 1904 in der Mac-Version. 
42 Die Fehlermarge ist ein Maß für die Genauigkeit eines statistischen Ergebnisses. Ist dieser Wert 
zu groß (Groskopf schlägt 10 Prozent als Grenze vor), ist das Ergebnis ungenau. Fehlt der Wert oder 
wird er nicht berechnet, kennen wir die Genauigkeit überhaupt nicht. 
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- Inflation verzerrt die Daten. 

-  Natürliche/saisonale Schwankungen verzerren die Daten. 
— Zeitrahmen wurde manipuliert. 

—  Bezugsrahmen wurde manipuliert. 


Probleme, bei denen eine externe Expertin bzw. ein externer Experte helfen sollte: 
- Autorin bzw. Autor ist nicht vertrauenswürdig. 

— Der Sammelprozess ist undurchsichtig. 

- Daten bestätigen unrealistische Präzision. 

- Es gibt unerklärliche Ausreißer. 

- Ein Index maskiert die zugrundeliegende Variation. 

- Die Ergebnisse wurden p-gehackt.”? 

-  Benford’s Gesetz scheitert.“ 

- Zu gut, um wahr zu sein. 


Probleme, bei denen eine Entwicklerin bzw. ein Entwickler helfen sollte: 
— Die Daten werden zu den falschen Kategorien oder Regionen zusammengefasst. 
- Daten befinden sich in gescannten Dokumenten. 


Groskopfs Liste ist keine Definition allgemeiner Metriken, sondern ein Katalog von 
„Anti-Patterns“.” Sie wurde in Reflexion zum Kontext des Datenjournalismus er- 
stellt, und das bedeutet, dass dieser Ansatz im Vergleich zu den Daten des Kulturer- 
bes ein kleinerer Ansatz ist, sowohl in Bezug auf die Anzahl der Beitragenden als 
auch auf die Anzahl der Datensätze. Andererseits ist der einzige Zweck dieser Daten 
die Verwendung in der Datenanalyse, so dass der Datenjournalist als Editor wäh- 
rend des Datenreinigungsprozesses mehr Freiheit hat als eine Bibliothekarin bzw. 
ein Bibliothekar, die bzw. der mehrere Szenarien zur Datenwiederverwendung be- 
rücksichtigen sollte. Trotz dieser Unterschiede erhalten Projekte des Kulturerbes 
auch Anregungen von Groskopfs Liste. 


43 Der P-Wert misst das Niveau der statistischen Signifikanz. Es gibt bekannte Beispiele für das 
Hacken des Wertes von p, was zu irreführenden Schlussfolgerungen führt. 

44 Das Benford’sche Gesetz besagt, dass Zahlen an der Anfangsposition großer Zahlen nicht gleich- 
mäßig verteilt sind. Es kann als erster Test verwendet werden, um zu überprüfen, ob die Zahlen 
nicht evtl. gehackt worden sind. S. https://en.wikipedia.org/wiki/Benford’s_law. 

45 Wir verwenden hier Anti-Muster als das Gegenteil von Best Practice: häufig auftretende falsche 
Metadatenmuster. 
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2.4 Fazit zu Metriken 


Im vorherigen Abschnitt haben wir einige der Metriken und Ansätze vorgestellt. 
Dies ist kein umfassender Uberblick.*° Was wir zeigen wollten, ist, dass es in ver- 
schiedenen Forschungsbereichen oder Tatigkeitsbereichen ganz unterschiedliche 
Ansätze zur Messung der Metadatenqualitat und zur Erkennung einzelner Fragestel- 
lungen gibt. Es gibt allgemeine Metriken wie Vollständigkeit, formatspezifische 
Metriken, wie z.B. diejenigen für verknüpfte Daten, die von Amrapali gesammelt 
wurden. Einige Metriken messen Daten, aber es gibt Metriken, die sich auf Dienste 
konzentrieren, die Benutzenden den Zugriff auf Daten erleichtern (z.B. das Vorhan- 
densein verschiedener API-Endpunkte oder herunterladbare Datenspeicher — wir 
könnten die meisten FAIRmetriken in diese Kategorie eintragen). In einem der frü- 
hen Artikel zur Metadatenqualität betonen Stvilia et al” dass das von ihnen erstellte 
Informationsqualitäts-Framework“® (IQ-Framework) auf eine Datenquelle angewen- 
det werden sollte, indem relevante IQ-Dimensionen ausgewählt werden. Mit ande- 
ren Worten, nicht alle Metriken sind in jeder Situation nützlich, wir sollten für jeden 
Anwendungsfall die Richtige auswählen. 


3 Fazit zu Messbarkeit: Europeana 


Einer der Autoren dieses Beitrags arbeitete an der Messung der Metadatenqualität 

von Europeana. Was er nützlich fand - auf Anregung von Stvilia et al.“ -ist die Mi- 

schung aus verschiedenen Qualitätsdimensionen, Kennzahlen und Ansätzen. Die 

wichtigsten Arten der Datenqualitätsmessung in der Dissertation”? waren die Fol- 
genden: 

1. Allgemeine strukturelle und semantische Metriken. Diese Messungen sind die be- 
kanntesten in der Literatur. Basierend auf dem bekanntesten Artikel dieses For- 
schungsgebietes” sind sie: 

- Vollständigkeit - completeness: die Existenz von definierten Felder in den 
Datensätzen, 


46 Für diejenigen, die einen allgemeinen Überblick über die Metadaten-Qualitätsmetriken lesen 
möchten, empfehlen wir die bereits zitierte Doktorarbeit von Palavitsinis 2014. 

47 Vgl. Stvilia et al. 2007, 1726. 

48 Das Framework enthält Typologien der IQ-Varianz, die betroffenen Aktivitäten, eine umfassende 
Taxonomie der IQ-Dimensionen sowie allgemeine metrische Funktionen und Methoden der Rah- 
menoperationalisierung. 

49 Vgl. Stvilia et al. 2007. 

50 Vgl. Kiräly 2019. 

51 Vgl. Bruce und Hillmann 2004; Ochoa und Duval 2009. 
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- Übereinstimmung mit den Erwartungen — confromance to expectations: Sche- 
ma-Regelprüfung und Informationswert, 

— Zugänglichkeit - accessibility: wie einfach es ist, den Text des Datensatzes 
zu verstehen, 

- Logische Konsistenz und Kohärenz - logical consistency and coherence: Die 
„Stimmigkeit“ der Daten 

— Herkunft - provenance: die Beziehung zwischen anderen Metriken und dem 
Ersteller der Daten. 

Die Genauigkeitsdimension (Vergleich eines vollständigen Datenobjekts und sei- 

ner Metadaten) wurde nicht untersucht, da sie den Vergleich von Metadaten 

und deren Gegenstand - z.B. den Volltext von Büchern - erfordert, die nicht 

verfügbar waren. 

2. Unterstützung der funktionalen Anforderungen. Diese Dimension ist eine Variati- 
on der Vollständigkeit. Jedes Datenschema wird zur Unterstützung einer Reihe 
von Funktionen erstellt, wie z.B. Suchen, Identifizieren oder Beschreiben von 
Objekten. Die Datenelemente unterstützen eine oder mehrere dieser Funktionen 
und ihre Existenz sowie ihr Inhalt haben Auswirkungen auf diese Funktionen. 
Ein Beispiel: Ein Timeline Widget erwartet ein bestimmtes Datumsformat; wenn 
der Feldwert in einem anderen Format ist, ignoriert das Widget es. Diese Fami- 
lie von Metriken gibt Messungen den Umfang für die Unterstützung der funktio- 
nalen Anforderung. Um diese Metriken anzuwenden, sollten wir eine funktio- 
nale Anforderungsanalyse des Datenschemas durchführen und die einzelnen 
Datenelemente (Klassen und Eigenschaften) auf die Funktionen abbilden. Das 
Ergebnis ist ein Bericht, der sagt, wie die Daten die vorgesehenen Funktionen 
unterstützen. In Anlehnung an die bei Stvilia festgelegte Terminologie” nennen 
wir diese Aspekte „Sub-dimensions“. Das Europeana Data Quality Committee 
definierte eine Reihe von solchen Sub-dimensions (wie Suchbarkeit, Beschreib- 
barkeit, Identifizierung, Kontextualisierung, Browsing usw.), die in anderen 
Metadatenbereichen wiederverwendet werden können. In Bezug auf das MARC 
21-Schema hat die Library of Congress zwölf Aufgaben definiert und eine Zuord- 
nung zwischen ihnen und den Datenelementen des Schemas erstellt.” Es stellte 
sich heraus, dass der Ansatz zur Messung der funktionalen Unterstützung eng 
an die Vollständigkeit gebunden ist, und da die Gesamtzahl der Datenelemente 
in MARC viel höher ist als die tatsächlich verfügbaren Felder in den Datensät- 
zen, ist nicht nur die Vollständigkeit, sondern auch die funktionale Unterstüt- 
zung gering. 

3. Existenz bekannter Datenmuster. Dies sind schema- und domänenspezifische 
Muster, die in den Datensätzen häufig vorkommen. Es gibt gute Muster, die 


52 Vgl. Stvilia 2006, 20. 
53 Vgl. Desley 2002; Library of Congress 2006. 
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gute Datenerstellungspraktiken erkennen lassen, und Anti-Muster, die vermie- 
den werden sollten (wie Datenwiederholung, bedeutungslose Daten usw.). Ftir 
einige Bereiche gibt es bereits Musterkataloge, z.B. arbeitet das Europeana 
Data Quality Committee an einem Europeana-spezifischen Musterkatalog, wah- 
rend Suominen und Hyvönen drei SKOS-Validierungskriterienkataloge unter- 
sucht haben.” Király zeigte auch einige der Anti-Muster in MARC 21-Aufzeich- 
nungen.” Diese Messungen können unter „conformance to expectations“ kate- 
gorisiert werden. 

Multilingualität. Das Resource Description Framework (RDF) bietet eine leicht 
anpassbare Technik, um literalen Werten ein Sprachkennzeichen hinzuzufü- 
gen, was die Mehrsprachigkeit zu einem wichtigen Aspekt in der vernetzten of- 
fenen Datenwelt macht. In Kulturerbe-Datenbanken kann die Übersetzung der 
beschreibenden Felder (wie Titel, Beschreibung) eine sehr personalintensive 
Aufgabe sein. Andererseits ist die Wiederverwendung bestehender mehrspra- 
chiger Thesauri für Schlagworte ein relativ einfacher und kostengünstiger Pro- 
zess. Für das Messen der Qualität ist das Schöne daran, dass die mehrsprachige 
Ebene in Metadatenschemata (auch in solchen, die nicht auf RDF-basieren) im 
Allgemeinen ähnlich ist, so dass die Implementierung abstrahiert werden 
kann. Das große Problem ist, wie man mit den Verzerrungen umgeht, die durch 
die unterschiedliche Bedeutung der Datenelemente in den einzelnen Sprachen 
entstehen. Ein anderes Problem ist die unterschiedliche Kardinalität bei eini- 
gen Begriffen: Europeana hat zum Beispiel „Dokument“ als Betreffzeile, die in 
mehr als siebzig Sprachen zugänglich ist, aber es ist an einen großen Teil der 
Datensätze angehängt (mehr als 20 Prozent), so dass sein Informationswert 
oder seine Unterscheidungskraft gering ist - wenn der Benutzer nach Doku- 
menten sucht, erhält er Millionen von Datensätzen. Diese Messung könnte un- 
ter „conformance to expectations“ und „accessibility“ kategorisiert werden. 


Der gemeinsame Punkt dieser Metriken ist, dass sie als generische Funktionen im- 
plementiert werden können, bei denen Eingabeparameter spezifische Elemente ei- 
nes Datenschemas sind. Die Funktionen selbst sollten die Details des Schemas nicht 
kennen, d.h. sie sollten schemaunabhängig sein. Mit anderen Worten: Das Einzige, 
was wir auf Schemabasis erstellen sollten, ist eine Methode, die sich um die Abbil- 
dung der Schema-Elemente und Messfunktionen kümmert und diese generischen 
Funktionen mit den entsprechenden Metadatenelementen versorgt. 


Der Messprozess besteht aus den folgenden Phasen: 
Datenaufnahme, 
Messung von Einzelsätzen, 


54 Vgl. Suominen und Hyvönen 2022. 
55 Vgl. Kiräly 2019b. 164-165. 
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3. Analyse der Messergebnisse, um eine Gesamtansicht für die gesamte oder eine 
Teilmenge der Sammlung zu erhalten, 

4. Berichterstattung über die Ergebnisse, 

5. Diskussion der Ergebnisse innerhalb einer Expertengemeinschaft. 


Diese Phasen bilden eine Schleife; nach Phase 5 endet der Prozess entweder oder 
geht zurück zu Phase 2, 3 oder 4. 

Wie gezeigt wurde, hat die Metadatenqualität mehrere Dimensionen. Für jede 
Datenquelle sollten wir diejenigen Maßnahmen auswählen, die sowohl theoretisch 
als auch praktisch zu den Datenquellen passen. Diese Maßnahmen haben jeweils 
ihren „rechnerischen Fußabdruck“: Die Berechnung erfordert eine bestimmte Men- 
ge an Personal- und IT-Ressourcen (und sie sind nicht immer vorhersehbar), wir 
sollten sie sowohl in Forschungs- als auch in Nicht-Forschungsprojekten berück- 
sichtigen. Ein weiterer wichtiger Aspekt ist die menschliche Komponente: Die Metri- 
ken sollten nicht nur aus statistischer Sicht sinnvoll, sondern auch für die Daten- 
pflegenden von Bedeutung sein. Die Metriken sollen einen Entscheidungsprozess 
über die Änderung der Daten unterstützen. Während der Recherche war dieses der 
schwierigste Punkt: die Schnittmenge der Interessen der Metadaten-Expertinnen 
und -Experten zu finden. Es kam immer wieder vor, dass das Ergebnis aus Sicht der 
Katalogisierer nicht sinnvoll war, so dass es auf Basis der Rückmeldungen verbes- 
sert werden musste. Es war eine angenehme Situation, dass die Forschung zusam- 
men mit einer Expertengruppe, dem Europeana Data Quality Committee, durchge- 
führt wurde, deren Mitglieder ständig Feedback gaben. 


4 Forschungsdaten 


Welche Metriken außer den bereits besprochenen FAIR-Metriken sind nun im Um- 
gang mit Forschungsdaten anwendbar? CoreTrustSeal’ ist eine Zertifizierung für 
Forschungsdatenrepositorien, die auf den DSA-WDS Core Trustworthy Data Reposi- 
tories Requirements? basiert. Die Zertifizierung ist ein Nachfolger des Data Seal of 
Approval. Ziel ist es nachzuweisen, dass die zertifizierten Repositorien die besten 
Praktiken des FDM befolgen. Unternehmen sollten ihre Aktivitäten in 15 Bereichen 
erläutern, wie Datenzugriff, Lizenzen, Workflow, Datenintegrität usw. Es gibt zwei 
Bereiche, die aus Sicht der Metadatenqualitätsmessung interessant sind: Bewertung 


56 S. https://www.coretrustseal.org/. 
57 S. https://www.coretrustseal.org/wp-content/uploads/2017/01/20180629-CTS-Extended-Guid- 
ance-v1.1.pdf. 
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und Datenqualitat. Die Zertifikate enthalten die Antwort des Unternehmens und die 

Notizen der Zertifizierungsinstitution und sind öffentlich zugänglich.”® 
Zum jetzigen Zeitpunkt gibt es 54 CoreTrustSeal-zertifizierte Repositorien. Die 

Zertifizierungen sind sehr interessante Dokumente, und zusammen bilden sie eine 

Art Querschnitt durch den Stand der Technik in den 15 Bereichen der Datenreposito- 

rien. Es scheint, dass sich ihre Aktivitäten zur Daten- und Metadatenqualität auf fol- 

sende Themen konzentrieren: 

- Einstellen der Liste der empfohlenen und akzeptierten Dateiformate und Prüfen 
eingehender Dateien daraufhin. 

- Dokumentationsaufwand auf verschiedenen Ebenen (allgemein, domänenspezi- 
fisch, national) bei der Erstellung von Handbüchern und Leitfäden, sowohl für 
die Benutzenden als auch für die Betreuenden des Repository. 

- Datenkuration durch Expertinnen und Experten — die meisten dieser Reposito- 
rien sind nicht vollautomatisch, wenn die hinterlegten Materialien von Exper- 
tinnen und Experten sorgfältig überprüft werden. Sie überprüfen sowohl Archi- 
vierungsaspekte (Formate, Metadaten) als auch Domänenaspekte (Inhaltsrele- 
vanz). 

- Verwaltung sensibler Daten (sichere Datenverwaltung oder Ausschluss nicht 
anonymisierter Daten). 

- Einstellung von Pflichtfeldern, empfohlenen und optionalen Feldern in Bezug 
auf die Metadatensätze. 

-  Online-Formularvalidierung für die Metadaten, die über eine Online-Benutzer- 
oberfläche erstellt wurden. 

— Anwendung von XML-Validierern in einigen Repositorien, wenn der Metadaten- 
satz voraussichtlich im XML-Format verfügbar ist. 


Unter den traditionellen Metadaten-Qualitätsdimensionen wird nur die Vollständig- 
keit erwähnt und als Synonym für den Fall verwendet, dass alle Pflichtfelder im Me- 
tadatensatz verfügbar sind: „Sicherstellen, dass DDI-Felder in den Metadaten ausge- 
füllt werden, gewährleistet die Qualitätskontrolle der Vollständigkeit“, schreibt das 
Australian Data Archive” zu dem Thema. 

Nur ein kleiner Teil der Repositorien erwähnte die Verwendung von kontrollier- 
tem Vokabular und nur ein Repository, nämlich das institutionelle Forschungsda- 
tenrepositorium FDAT der Universität Tübingen erwähnt überhaupt namentlich ein 
unabhängiges Tool zur Automatisierung der Metadaten-Qualitätsprüfung.°” Die 
Worldwide Protein Data Bank®! erwähnt, dass sie zwei Arten von Darstellungen der 


58 S. https://www.coretrustseal.org/why-certification/certified-repositories. 

59 S. https://assessment.datasealofapproval.org/assessment_245/seal/html. 

60 FDAT, Tiibingen verwendet den docuteam packer, s. https://wiki.docuteam.ch/doku.php?id=- 
docuteam:packer. 

61 S. https://assessment.datasealofapproval.org/assessment_281/seal/html. 
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Datenqualitätsbewertung erstellt hat: eine für Spezialistinnen und Spezialisten so- 

wie eine für Nicht-Spezialistinnen und Nicht-Spezialisten. Die Letztere enthält eine 

einfache grafische Darstellung, die eine kleine Anzahl von wesentlichen Qualitats- 
kennzahlen hervorhebt. Verschiedene Repositorien erwähnen, dass sie Metadaten- 
sätze von guter Qualität als Beispiele in der Dokumentation wiederverwenden. 

Es lohnt sich, die Checkliste des Digital Repository of Ireland‘ zu zitieren, in 
der die empfohlenen Schritte zur Durchführung regelmäßiger Metadatenqualitäts- 
sbewertungen beschrieben werden: 

— Benennen Sie eine Person oder ein kleines Team von Informationsexpertinnen 
bzw. -experten, die die Verantwortung für das Audit übernehmen. 

- Entscheiden Sie, inwieweit während des Audits festgestellte Fehler in der Live- 
Datenbank behoben werden. 

— Auf vierteljährlicher oder halbjährlicher Basis laden Sie einen Beispielsatz von 
Datensätzen in die Softwareanwendung OpenRefine hoch. 

— Verwenden Sie die Facettier- und Cluster-Tools in OpenRefine, um Fehler wie 
Rechtschreibfehler, inkonsistente Verwendung der Groß-/Kleinschreibung oder 
leere Zellen zu identifizieren und zu erfassen. 

- Stellen Sie die Dokumentation so zusammen, dass Qualitätsänderungen über 
einen längeren Zeitraum festgestellt werden können. Dies ist besonders nütz- 
lich, wenn das Unternehmen vor Kurzem begonnen hat, neue Katalogisierungs- 
methoden anzuwenden. 


Die am weitesten verbreiteten allgemeinen Metadatenschemata sind die Elemente 
des Data Documentation Initiative (DDI)® Frameworks™ und The Dublin Core Meta- 
data Initiative’s DCMI Metadata Terms.°° In Bezug auf Metadatenschemata könnte 
CLARINs Component Metadata® als Standard in linguistischen Datenrepositorien 
angesehen werden. 

Eine wichtige Schlussfolgerung aus dieser vorläufigen Analyse ist, dass es eine 
Art „Marktlücke“ sowohl in der Forschung als auch in der Werkzeugentwicklung im 
Bereich des FDM gibt. Die in den Zertifikaten genannten Elemente der Datenqualität 
(Vollständigkeit, Formatkonsistenz, Inhaltsrelevanz, Prüfung von Facetten auf 
Fehler usw.) unterscheiden sich nicht von denen, die man in anderen Metadaten- 
Domänen finden kann. Es gibt Elemente, die existieren, aber anscheinend nicht die 
Popularität erreicht haben, die sie verdienen, z.B. die „frictionless data“-Datenbe- 


62 S. McCarthy 2014, 4. 

63 S. http://www.ddialliance.org. 

64 DDI Lifecycle, s. http://www.ddialliance.org/Specification/DDI-Lifecycle/3.2/XMLSchema/ 
FieldLevelDocumentation; das DDI Codebook, s. http://www.ddialliance.org/Specification/DDI- 
Codebook/2.5/XMLSchema/field_level_documentation.html. 
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schreibung Metadatenformat°” oder FAIRmetrics.°® Ganz zu schweigen von den all- 
gemeinen Elementen der Metadatenqualitätsforschung (Dimensionen, Metriken und 
Werkzeuge), die in diesen Bereich eingeführt werden könnten, zur Zufriedenheit so- 
wohl der Betreibenden der Datenrepositorien, als auch der Metadatenqualitätsfor- 
schenden. 

Im Jahr 2016 bildeten sich zwei wichtige Gruppen im Bereich des Kulturerbes, 
die eine eingehende Untersuchung der Datenqualität in bestimmten Segmenten be- 
gannen: das Europeana Data Quality Committee (DQC)® und die Digital Library Fe- 
deration Metadata Assessment Working Group (MAWG).”° Das DQC untersucht die 
für die Europeana-Sammlung spezifischen Metadatenfragen und ist an der Schaf- 
fung des Messrahmens beteiligt. Das MAWG konzentriert sich nicht auf einen be- 
stimmten Dienst und ein bestimmtes Metadatenschema, sondern sammelt relevante 
Literatur und Anwendungsfalle und versucht, eine Reihe von Empfehlungen zur Be- 
wertung der Metadatenqualität zu formulieren. 2017 startete Auditing Digitalization 
Outputs in the Cultural Heritage Sector, Belgium,” (ADOCHS) mit dem Ziel, den 
Qualitätskontrollprozess für die digitalisierten Sammlungen der belgischen Natio- 
nalbibliothek und des Nationalarchivs zu verbessern. Die Ergebnisse des ADOCHS- 
Projekts finden sich in den Publikationen von Anne Chardonnens” und Ettore Riz- 
za.” Ähnliche Aktivitäten der Digital Public Library of America (DPLA) sind bei Gue- 
guen beschrieben.’* 


5 Datenqualitätsprüfung in der Praxis 


Es gibt nur wenige Dienste, die eine Datenqualitätsprüfung und Datenkorrekturme- 
chanismen auf der Grundlage der Ergebnisse implementiert haben. Ein sehr schö- 
nes Beispiel dafür findet sich bei der University of North Texas Digital Library (UNT 
DL). Als inhaltliche Drehscheibe für die DPLA kuratiert sie neben den eigenen Mate- 
rialien zwei externe Sammlungen: das Portal to Texas History und das Gateway to 
Oklahoma History. Den Workflow zur Qualitätssicherung der Daten haben sie als 
Teil ihrer Metadaten-Bearbeitungssoftware realisiert. Kuratierende können verschie- 
dene qualitätsbezogene Probleme herausfiltern, die betroffenen Metadatensätze 


67 Vgl. Fowler, Barratt und Walsh 2018. 

68 Vgl. GO FAIR Metrics Group n.d. 

69 S. http://pro.europeana.eu/page/data-quality-committee. 

70 S. https://dlfmetadataassessment.github.io. 

71 S. http://adochs.be/. 
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73 S. https://scholar.google.com/citations?hl=en&user=jh_bdOwAAAAJ. 
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auflisten und sie bearbeiten, um die Probleme zu beheben. In einem Screencast für 
den Metadata Quality Workshop der 2018 ELAG Konferenz” zeigten Philipps und 
Tarver’® drei unterschiedliche Benutzerinterfaces, um Probleme im Katalog der UNT 
DL zu entdecken. Das erste listet die Werte auf, die in den einzelnen Feldern gespei- 
chert sind (sie verwenden ein qualifiziertes Dublin Core Schema als Grundlage für 
ihre Metadatensätze). Als erweiterte Facettenliste kann sie alphabetisch oder nach 
Häufigkeit sortiert werden. Diese Liste hilft den Kuratierenden, merkwürdige Werte 
herauszufiltern (z.B. Werte mit unterschiedlicher Interpunktion). Die Zählschnitt- 
stelle zeigt an, wie viele Instanzen in einem Datensatz vorhanden sind (z.B. X Da- 
tensätze haben eine Instanz, Y hat zwei, während Z keine hat). Philipps erklärte, 
dass eine Beschreibung entweder ein physischer Typ oder ein Content-Typ sein soll- 
te. Die Schnittstelle zeigt diejenigen Datensätze an, die keinen Typ haben, also Feh- 
ler sind. Die letzte (und interessanteste) Schnittstelle zeigt Cluster von Werten an. 
Dieser Teil der Software verwendet OpenRefine’s Clustering-Algorithmen wieder. 
Beim Clustering wird versucht, verschiedene Werte auf der Basis einer Ähnlichkeit 
zusammenzuführen. Einer dieser Ähnlichkeitsalgorithmen, der für textuelle Infor- 
mationen verwendet wird heißt „Fingerprint“. 

Der Fingerprint-Algorithmus zeigt z.B., dass Schostakowitsch, der russische 
Komponist, 14 verschiedene Namensformen im Contributor-Feld hat. Die Cluster 
können nach den extrahierten Schlüsseln, der Anzahl der Variationen, der Anzahl 
der geclusterten Datensätze u.a. angeordnet werden. Dieser Algorithmus hat zwei 
spezielle Typen: er kann die Whitespaces oder die Daten, die im Text eines Feldes 
gefunden werden, ignorieren. Ein anderer Algorithmus könnte für Felder verwendet 
werden, die hauptsächlich numerische Werte enthalten: „Muster-Maske“ ersetzt 
Zahlen durch Nullen und zeigt so ein Grundmuster, wie z.B. 0000-00-00 oder 
0000-0000. Im Falle von Daten erwarten wir keine allzu großen Abweichungen in 
den sinnvollen Mustern, so dass es relativ einfach ist, nicht interpretierbare Mas- 
ken, wie z.B. drei Zahlen (die kein gültiges Jahr, Monat oder Tag sein können) her- 
auszufinden. 

Ein weiteres Beispiel ist die Qualitätskontrolle von Metadaten in der Nationalbi- 
bliothek von Portugal. Ihr System (MANGAS” genannt) unterstützt verschiedene 
Schritte des Qualitätskontrollprozesses wie Validierung, Berichterstattung, Filte- 
rung und Korrektur. MANGAS liest die Eingabedaten (das sind UNIMARC-Dateien 
im XML-Format), erkennt Probleme, kategorisiert sie und erstellt einen Bericht für 
die Kuratierenden. Wo es möglich ist, gibt es auch Vorschläge für die Korrektur von 


75 UNT Libraries Metadata Quality Interfaces - ELAG 2018, s. https://www.youtube.com/watch? 
v=ATM3EwixnW8. 
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Fehlern oder, wenn es automatisch durchgefiihrt werden kann, behebt es diese 
auch auf der Basis eines von den Kuratierenden vorbereiteten „Korrekturskripts“. 

In diesen Beispielen haben wir gesehen, dass diese Institutionen eine volle Kon- 
trolle über die Daten haben, d.h. sie haben das Recht, sie zu ändern. Sie haben 
auch ein gut definiertes Metadatenschema, das ihren Bedürfnissen entspricht, und 
eine etwas begrenzte Anzahl von Datensätzen, welche keine rechenintensiven Ope- 
rationen wie z.B. Clustering oder Neu-Indizierung erforderlich macht. Das ist nicht 
immer der Fall. 

Es wurde gezeigt, dass Europeana als Datenaggregator nicht die gleiche Kon- 
trolle über die Daten hat, also kann es Datenqualitätsprobleme nicht auf die gleiche 
Weise beheben wie z.B. UNT DL und aufgrund der Größe der Daten wären einige 
der Ansätze in einer ähnlichen Benutzeroberfläche zu langsam. Was Europeana 
stattdessen tun kann, ist eine Datenqualitätsanalyse durchzuführen, die im Eu- 
ropeana Publishing Framework”? beschrieben wird, und die Ergebnisse den Daten- 
lieferanten in einem statistischen Dashboard zur Verfügung zu stellen. Die Ergeb- 
nisse dieser Analyse stehen auch über die API des Dienstes als zusätzliche Metada- 
tenelemente der einzelnen Europeana-Datensätze zur Verfügung.” 

Das Swedish National Heritage Board experimentiert mit einem interessanten 
Projekt namens Wikimedia Commons Data Roundtripping.®° Roundtripping ist der 
Name des Arbeitsablaufs, in dem eine Kulturerbe-Institution ihre Daten in Wikime- 
dia Commons veröffentlicht, die Nutzerschaft diese offen verfügbaren Daten anrei- 
chern (wie z.B. Übersetzungen von Beschreibungstexten in andere Sprachen hinzu- 
fügen, Personen, Namen und Aliasnamen, Orte und Themen identifizieren oder mit 
Normdaten verlinken und diese zum Abrufen von Beiträgen Dritter von anderen Ge- 
dächtnisorganisationen verwenden), dann nehmen die Institutionen diese Daten 
auf und aktualisieren ihre ursprüngliche Datenbank. Die Daten werden so den be- 
stehenden Qualitätsprüfungsmechanismen von Wikipedia und Verbesserungen von 
Dritten ausgesetzt durch klassische Crowd-Source-Mechanismen. 

Aus dieser Übersicht können wir folgenden Schluss ziehen: Der effiziente Da- 
tenqualitätsprozess hat mindestens zwei Hauptphasen: Analyse und Korrektur.* 
Die Auswahl der analytischen Ansätze könnte sich an der Komplexität, der Vielfalt 
und dem Volumen der Daten orientieren. Die Korrektur könnte nur von den Daten- 
eigentümern durchgeführt werden oder zumindest sollten die Änderungen für und 


78 S. https://pro.europeana.eu/post/publishing-framework. 
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durch sie transparent und kontrollierbar sein. Im Falle von Forschungsdatenreposi- 
torien sind die Eigentümer die Forschenden, die ihre Daten hochladen. Gemäß den 
CoreTrustSeal-Berichten in mehreren Repositorien fungieren Datenkuratierende als 
Vermittelnde zwischen Forschenden und Daten und/oder als Vermittelnde zwi- 
schen Forschenden und Serviceinfrastruktureinrichtungen. Für Self-Service-Reposi- 
torien wäre es sinnvoll, ein Data-Quality-Dashboard zu erstellen, in dem die For- 
schenden das Ergebnis der Qualitätsanalyse sehen und dann über die Korrekturen 
entscheiden können. 
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4.4 Disziplinspezifische und -konvergente 
FDM-Projekte 


Abstract: Projekte sind der Motor im Forschungsdatenmanagement (FDM), für das 
noch etablierte Infrastrukturen und Prozesse fehlen. Viele der bisherigen Fort- 
schritte im FDM entstanden im Rahmen von Projekten: Repositorien wie Zenodo, 
Richtlinien und Handreichungen wie RISE-DE, Tools, beispielsweise zum Erstellen 
von Datenmanagementplänen wie RDMO, darüber hinaus Rechtsgutachten, Schu- 
lungs- und Awarenessmaterialien. Idealerweise bieten die Ergebnisse von FDM- 
Projekten einen Mehrwert für die jeweilige Fach- oder für die gesamte FDM-Com- 
munity und finden langfristig eine Heimat in der Servicelandschaft einer oder meh- 
rerer Institutionen und eine Community, die sie weiter pflegt. Damit die Ergebnisse 
eines Projektes nicht nur singuläre Problemstellungen lösen, ist es unbedingt not- 
wendig, Infrastruktureinrichtungen als Projektpartner zu integrieren. Mindestens 
genauso wichtig sind jedoch aber die wissenschaftlichen Institute als Projektpart- 
ner, die die Anforderungen stellen und dafür sorgen, dass Ergebnisse verwendbar 
und realistisch im Forschungsprozess integrierbar sind. Die Kooperation mit ande- 
ren Einrichtungen ermöglicht weitere Synergieeffekte und erhöht die Anwendbar- 
keit der Ergebnisse. Finanzierungsmöglichkeiten finden sich sowohl innerhalb von 
Institutionen und Verbünden als auch in den nationalen und europaweiten Förder- 
linien von DFG, BMBF und EU. Die Beantragung und Durchführung von Projekten 
kostet Zeit und Ressourcen, FDM-Projekte bieten allerdings die Möglichkeit, größe- 
re Arbeitspakete strukturiert anzugehen, Kooperationen anzubahnen, die Sichtbar- 
keit der eigenen Arbeit zu erhöhen und das eigene FDM-Team personell zu ergän- 
zen. 


Einleitung 


Zur Verwaltung von Forschungsdaten existieren keine disziplinübergreifend eta- 
blierten Prozesse und Werkzeuge. Eine Vielzahl von Institutionen und Forschende 
arbeiten an Konzepten und Lösungen, Forschungsdaten in einer Form zu verwalten, 
dass sie auffindbar, zugänglich, interoperabel und nachnutzbar sind.'! Viele dieser 


1 Vgl. Wilkinson et al. 2016. 


8 Open Access. © 2021 Dorothea Iglezakis und Sibylle Hermann, publiziert von De Gruyter. CIE] Dieses 
Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-021 
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Lösungen entstanden im Rahmen von Projekten. Ein Beispiel sind fachspezifische 
oder allgemeine Datenrepositorien zur Veröffentlichung von Forschungsdaten. Das 
allgemeine Repositorium Zenodo? wurde am CERN zur Veröffentlichung von For- 
schungsdaten im Rahmen von mehreren EU-Projekten entwickelt, das fachspezifi- 
sche Repositorium Pangaea? startete als BMBF-Projekt,* der generische Repositori- 
umsdienst RADAR? im Rahmen eines DFG-Projektes.° Das Repositorien-Verzeichnis 
re3data’ entstand ebenfalls innerhalb eines DFG-Projektes. 

Auch mit Rahmenbedingungen für ein funktionierendes Forschungsdatenma- 
nagement (FDM) befassen sich Projekte: Ein Gutachten zu den rechtlichen Rahmen- 
bedingungen des Forschungsdatenmanagements® entstand innerhalb des BMBF- 
Projektes DataJus,? das BMBF-Projekt FDMentor entwickelte Hilfestellungen zur Ent- 
wicklung einer FD-Policy und zur Entwicklung von FDM-Schulungen!® sowie Mate- 
rialien zur Selbstevaluation mit RISE-DE." Um Forschende bei der Planung von 
FDM-Maßnahmen im Rahmen ihres Forschungsvorhabens zu unterstützen, ist in- 
nerhalb eines DFG-Projektes der Research Data Management Organiser (RDMO)” 
entstanden.” 

Weitere Projekte befassen sich mit dem FDM im Forschungsalltag. So gibt es 
Projekte zur (Weiter-)Entwicklung von Metadatenschemata und der Annotation von 
Daten mit Metadaten im Forschungsprozess, beispielsweise das Landesprojekt Re- 
playDH,”“ das BMBF Projekt Dipl-Ing® oder das DFG-Projekt MaSi.!° 


2 S. https://www.zenodo.org. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
3 S. https://pangaea.de. 

4 Vgl. Diepenbroek et al. 2002. 

5 S. https://www.radar-service.eu/de. 

6 Vgl. Kraft et al. 2012. 

7 S. https://www.re3data.org/about. 

8 Vgl. Lauber-Rönsfeld et al. 2018. 

9 S. https://tu-dresden.de/gsw/phil/irget/jfbimd13/forschung/forschungsprojekt-datajus. 
10 Vgl. Dolznyca et al. 2019. 

11 Vgl. Hartmann et al. 2019. 

12 S. https://rdmorganiser.github.io/. 

13 Vgl. Neuroth und Engelhardt 2018. 

14 Vgl. Gärtner et al. 2018; https://www.ub.uni-stuttgart.de/replay. 

15 Vgl. Selent et al. 2020; https://www.ub.uni-stuttgart.de/dipling. 

16 S. https://masi.zih.tu-dresden.de/web/site/projekt. 
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1 Projekte im Forschungsdatenmanagement 


1.1 Inhalte von FDM-Projekten 


FDM ist eine Daueraufgabe. Projekte haben aber definitionsgemäß eine begrenzte 
Laufzeit. Für das Tagesgeschäft sind sie damit nicht geeignet. Projekte sind dafür 
da, Neues zu schaffen und vorzubereiten. Projekte geben oft den Anstoß zu Diens- 
ten, die anschließend im Dauerbetrieb etabliert werden müssen. 

Projekte im FDM-Bereich können grob in drei Kategorien eingeteilt werden: Ent- 
wicklung von Software (Repositorien wie z.B. RADAR oder Tools wie den Replay- 
Client etc.), Entwicklung von Konzepten für Serviceangebote (Handreichungen, 
FDMentor, RISE etc.), Erarbeitung von allgemeinen Materialien zu Rahmenbedin- 
gungen (DataJUS, FDM-Policy-KIT etc.). 

Über den Datenlebenszyklus hinweg fallen eine Vielzahl von Aufgaben im For- 
schungsdatenmanagement an. Für die Planung von FDM-Maßnahmen in For- 
schungsprojekten können innerhalb von Projekten Tools zur Unterstützung (z.B. 
das DMP-Tool RDMO,” entwickelt im Rahmen von zwei DFG-Projekten und DMP- 
Auswahl- sowie Anpassungshilfen an Vorgaben von Förderern, etwa seitens eHu- 
manities — interdisziplinär!®) oder Beratungskonzepte (z.B. das FDM-TUDO-Pro- 
jekt,” gefördert vom BMBF) entwickelt werden, die eigentliche Beratungsleistung 
ist aber eine Daueraufgabe und kann nicht über ein Projekt finanziert werden. 

Die Entwicklung von Awareness-Materialien wie im BMBF-Projekt UNEKE” und 
Schulungskonzepten und -inhalten wie das Train-the-Trainer Konzept des BMBF- 
Projektes FDMentor”! kann Gegenstand eines Projektes sein, die eigentliche Durch- 
führung von Schulungen oder Lehre gehört aber wieder zu den Daueraufgaben. 

Für die Speicherung und Verwaltung von Forschungsdaten können die Entwick- 
lung und der Aufbau von Tools gefördert werden wie der Metadatenmanagement- 
Service MaSI”, der durch ein DFG-Projekt aufgebaut wurde. Die Speicherinfrastruk- 
tur zur Speicherung der Daten und Metadaten gehört aber zu den Kernaufgaben ei- 
ner Institution. 


17 S. https://rdmorganiser.github.io. 

18 S. https://www.fdm-bayern.org/ehumanities-interdisziplinaer/ziele-und-arbeitspakete/daten- 
managementplan/. 

19 S. https://cms.tu-dortmund.de/cms/Referat2/de/home/Forschungsdatenmanagement/fdm_pro- 
jekt/index.html. 

20 Vgl. Brenger et al. 2017. 

21 Vgl. Dolzycka 2019. 

22 Vgl. Grunzke et al. 2019; https://masi.zih.tu-dresden.de. 
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Der Aufbau eines Repositoriums oder Dienstes zum Teilen oder Veröffentlichen 
von Forschungsdaten ist über ein Projekt förderbar. Der Betrieb eines solchen 
Dienstes muss langfristig anders finanziert werden. 

Qualitätssicherungskonzepte für Forschungsdaten können innerhalb von Pro- 
jekten entstehen wie dem DFG-Projekt CONQUAIRE.” Die tatsächliche Durchfüh- 
rung gehört zu den Daueraufgaben. 

Ein Konzept zur Langzeit-Archivierung von (Forschungs-)Daten ist förderfähig 
(siehe zum Beispiel das Landesprojekt bwDataBib™). Die Durchführung der Kurati- 
onsaufgaben dagegen nicht. 


1.2 Beteiligte von FDM-Projekten 


Klassischerweise ist das Thema FDM in den Infrastruktureinrichtungen und der For- 
schungsförderung der Institutionen angesiedelt: Rechenzentren bieten die techni- 
sche Unterstützung, Bibliotheken die Erschließung, Aufbereitung und Publikation 
von Wissen und HPC-Cluster Rechenpower für die rechenintensive Generierung und 
Verarbeitung der Daten. 

Infrastruktureinrichtungen möchten möglichst generische Dienste und Services 
anbieten, die über Disziplinen und Fachrichtungen hinweg nutzbar sind, und ent- 
wickeln Lösungen, die sich eher an der Machbarkeit und der Integrierbarkeit in 
bestehende Strukturen orientieren. Wissenschaftlerinnen und Wissenschaftler dage- 
gen haben sowohl in der Rolle der Datenproduzierenden als auch der Datennutzen- 
den die Praxis-Relevanz und Einsetzbarkeit im Fokus: Sie haben einen spezifischen 
Forschungsprozess im Blick und wissen genau, wo das Problem liegt und welche 
Ansätze realistisch zur Lösung beitragen können. Aus der informationswissen- 
schaftlichen Forschung kommen gleichzeitig aktuelle Konzepte und Lösungskom- 
ponenten wie Datenstrukturen für semantische Informationen oder Konzepte zur 
Annotation von Informationen. 

Alle drei Blickwinkel sind wichtig für FDM-Projekte: Aktuelle Forschung im Da- 
ten- und Informationsmanagement, die langfristige Betreibbarkeit von Diensten 
und Konzepten und die konkreten Anforderungen im fachlichen Forschungspro- 
zess. Projekte ohne Beteiligung von forschenden Nutzerinnen und Nutzern resultie- 
ren in Diensten, die anschließend keiner verwendet. Projekte ohne Beteiligung von 
Infrastruktureinrichtungen schaffen Lösungen für sehr spezifische Probleme und 
haben große Schwierigkeiten mit der langfristigen Erhaltung und Pflege der Ergeb- 
nisse. Projekte ohne Beteiligung der aktuellen Forschung im Daten- und Informati- 


23 S. https://www.uni-bielefeld.de/(de)/conquaire. 
24 S. https://uni-tuebingen.de/einrichtungen/universitaetsbibliothek/ueber-uns/projekte/abge- 
schlossene-projekte/bwdatabib/. 
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onsmanagement bauen auf veralteten Konzepten auf. Alle drei Gruppen sprechen in 
der Regel aber unterschiedliche Sprachen und haben unterschiedliche Ziele. Allein 
die Tatsache, dass Menschen mit unterschiedlichen Blickwinkeln gemeinsam tiber 
die Lösung eines FDM-Problems sprechen, bringt das FDM voran. Die Beteiligung 
aller drei Blickwinkel erhöht aber auch die Wahrscheinlichkeit von langfristig nutz- 
baren Ergebnissen: Eine aktive Nutzercommunity, ein zuverlässiger Betrieb und die 
Pflege der Ergebnisse und Einbeziehung neuester Ergebnisse. 

Die Zusammenarbeit über mehrere Institutionen hinweg ermöglicht vielfältige 
Erfahrungen und öffnet den Projektpartnern den Horizont über die eigene Infra- 
struktur- oder Fachsicht hinaus. Der Aufbau einer gemeinsamen Zusammenarbeit 
kann ein zentraler Bestandteil eines Projektes sein, wie beim FoDaKo-Projekt”° der 
Universitäten Siegen, Düsseldorf und Wuppertal,?° kann sich aber auch bei der ge- 
meinsamen Arbeit an einem FDM-Thema ergeben. 

Ausgangspunkt für die Planung und Durchführung eines Projektes ist in der Re- 
gel ein konkretes Problem oder ein unbefriedigender Zustand in der eigenen Institu- 
tion bzw. in einem konkreten Anwendungsfall. Die Herausforderung besteht darin, 
im Rahmen eines Projektes eine konkrete Lösung für dieses Problem zu finden, die 
generisch genug ist, dass sie für ein größeres Publikum nutzbar ist. 


2 FDM-Projekte in der Praxis 


2.1 Beantragung von FDM-Projekten 


Die Beantragung von FDM-Projekten kostet Zeit und Ressourcen. Je nach bereits 
vorhandener Zusammenarbeit muss zunächst eine gemeinsame Sprache und ein ge- 
meinsames Ziel unter den Projektpartnern gefunden werden. Eine geeignete Förder- 
richtlinie für das Anliegen muss gefunden und eine eventuell vorhandene Deadline 
eingehalten werden. Die Ressourcen, die für die Antragstellung und Abrechnung in- 
vestiert werden, gehen gleichzeitig für die Umsetzung von FDM-Aktivitäten verlo- 
ren. Der Genehmigungsprozess dauert mindestens ein halbes Jahr und nur ein 
Bruchteil aller eingereichten Anträge wird genehmigt.” 

Warum diese Zeit und Ressourcen nicht gleich in die Lösung des Problems ste- 
cken? Unter manchen Bedingungen ist „einfach machen“ sinnvoller als die Beantra- 
gung eines Projektes: Wenn der Umfang des Projektes überschaubar ist, die Kompe- 


25 Weitere Informationen über das FoDaKo-Projekt siehe https://fodako.nrw. 

26 Vgl. Hess 2019. 

27 S. https://www.dfg.de/en/dfg_profile/facts_figures/statistics/processing_times_success_rates/ 
index.html. 
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tenzen und Kapazitäten zur Lösung des Problems grundsätzlich vorhanden sind, 
die Zusammenarbeit bereits etabliert ist und Zeitdruck bei der Umsetzung besteht. 

Für die Beantragung eines Projektes, sei es auf institutioneller, Landes-, Bun- 
des- oder europäischer Ebene spricht dennoch einiges: Der Beantragungsprozess 
sorgt dafür, dass sich eine vage Idee in eine konkrete Planung verwandelt. Durch 
das Zusammenbringen unterschiedlicher Perspektiven entstehen neue kreative Lö- 
sungsansätze. Allein der Kommunikations- und Abstimmungsprozess der verschie- 
denen Akteure stößt einen Prozess der gemeinsamen Willensbildung an, der die 
spätere Umsetzung enorm erleichtert. Das Feedback der Gutachterinnen und Gut- 
achter gibt zusätzliche Impulse zur Verbesserung. Zudem bietet ein drittmittelfinan- 
ziertes Forschungsprojekt die Möglichkeit zum Aufbau von Renommee innerhalb 
der wissenschaftlichen Community. 

Projekte, die einen Beantragungsprozess durchlaufen haben, sind in der Regel 
besser geplant, konkreter durchdacht und besser abgestimmt. Und nicht zuletzt er- 
lauben die eingeworbenen Mittel die Umsetzung umfangreicherer Vorhaben. 

Da in einem FDM-Projekt meist Partner mit sehr unterschiedlichen Blickwinkeln 
beteiligt sind (s. Abschnitt 1.2), muss für die Entwicklung einer gemeinsamen Spra- 
che und eines gemeinsam verfolgten Zieles Zeit eingeplant werden. Je größer und 
heterogener die Gruppe der Projektpartner ist, umso wichtiger und aufwendiger ist 
die Koordination der Antragsstellung: Klar definierte Rollen und Aufgaben der Pro- 
jektpartner, realistische Zeitpläne, die Vorgabe eines Antragrahmens und ein klei- 
nes Redaktionsteam, das die Einheitlichkeit und Stringenz des Antragstextes über- 
prüft und sicherstellt, sind nötig. 


2.2 Finanzierungsmöglichkeiten für FDM-Projekte 


Es existieren mehrere potentielle Fördermittelprogramme für die Finanzierung von 
FDM-Projekten auf verschiedenen Ebenen. Welcher Topf für das eigene Projekt in 
Frage kommt, hängt von den beteiligten Partnern, den Inhalten dem Umfang und 
der aktuellen Ausschreibungssituation ab. Informationen zu aktuellen Ausschrei- 
bungen finden sich auf den Plattformen der Fördermittelgeber”® oder in einschlägi- 
gen Mailinglisten.” 


28 S. z.B. https://www.bmbf.de/foerderungen/, https://ec.europa.eu/info/funding-tenders_de, 
https://www.dfg.de/foerderung/info_wissenschaft/index.jsp. 
29 S. z.B. https://www.listserv.dfn.de/sympa/info/forschungsdaten. 
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Eigenmittel von Institutionen 


Projekte, die inhaltlich die Kernaufgaben einer Institution betreffen oder Lösungen 
ausschließlich für Mitglieder einer Institution anbieten, können in der Regel nur 
durch eigene Mittel finanziert werden. Beispiele dafür sind Machbarkeitsstudien 
zum Aufbau eines institutionellen Forschungsdatenmanagements,° der Aufbau ei- 
nes institutionellen Daten-Repositoriums* oder die Schaffung institutioneller Ser- 
vices.” An der TU Dresden können sich Forschergruppen um Unterstützung bei der 
konkreten Umsetzung von FDM-Lösungen bewerben. Für die bis zu drei Monate lau- 
fenden Implementierungsprojekte” wurden in einem internen Projekt zwei Entwick- 
lerstellen geschaffen. 


Projektmittel innerhalb von Verbünden 


Auch innerhalb von Verbünden können Mittel zur Lösung von umgrenzten FDM- 
Problemstellungen vorhanden sein. Für die Nationale Forschungsdateninfrastruktur 
(NFDI)** werden die von den Konsortien beantragten Mittel zum Teil noch nicht 
konkret verplant, sondern stehen als sogenannte „Seed-Funds“ oder „Flex-Funds“ 
für Projektideen der Teilnehmenden zur Verfügung. Der europäische Ableger der 
Research Data Alliance (RDA) unterstützte einjährige Projekte zur Umsetzung von 
RDA-Richtlinien.” 


Landesmittel 


Die Bundesländer fördern meist die Vernetzung der FDM-Aktivitäten zwischen den 
Institutionen des jeweiligen Landes und schreiben teilweise eigene Förderlinien für 
FDM-Projekte aus. In Hessen wird in Form der Landesinitiative HeFDI° die Zusam- 
menarbeit und der Aufbau von Infrastrukturen im Bereich FDM an elf Hochschulen 
des Landes gefördert.” Die Landesinitiative NRW dient der Vernetzung und bietet 


30 Vgl. Dierkes und Curdt 2018. 

31 Vgl. Kaminski und Brandt 2018. 

32 Vgl. Apel et al. 2018. 

33 S. https://tu-dresden.de/forschung-transfer/services-fuer-forschende/kontaktstelle-forschungs- 
daten/unser-service/unterstuetzung-bei-ihrem-fdm. 

34 S. a. Beitrag von Neuroth und Oevel, Kap. „Aktuelle Entwicklung und Herausforderungen im 
Forschungsdatenmanagement in Deutschland“ in diesem Praxishandbuch. 

35 S. https://www.rd-alliance.org/top-european-organisations-funded-adopt-rda-recommendati- 
ons-and-outputs. 

36 S. https://www.uni-marburg.de/hefdi. 
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Basisdienste im Bereich FDM an.’ Mit SaxFDM” befindet sich eine ähnliche Initia- 
tive in Sachsen aktuell im Aufbau, vergleichbar sind auch entsprechende Kompe- 
tenznetzwerke für Forschungsdatenmanagement in Brandenburg und Thüringen. 
Die Projekte bwFDMInfo und bw2FDM”° in Baden-Württemberg unterstützen die 
Vernetzung der Universitäten des Landes und koordinieren die Landesprojekte im 
Bereich FDM. In Baden-Württemberg gab es in den vergangenen Jahren eigene Aus- 
schreibungslinien für FDM-Projekte (Virtuelle Forschungsumgebungen,*! FDM-Lö- 
sungen“ und zuletzt Science Data Center“). 


Nationale Forschungsförderer (DFG, BMBF) 


Die wichtigsten Fördermittelgeber in Deutschland für FDM-Projekte sind die Deut- 
sche Forschungsgemeinschaft (DFG) und das Bundesministerium für Bildung und 
Forschung (BMBF).“* 

Die DFG fördert in ihrer LIS-Linie“ leistungsfähige Informationssysteme für die 
Forschung. Für FDM-Projekte eignen sich vor allem die beiden Förderlinien „Infor- 


mationsinfrastrukturen für Forschungsdaten““ und „e-Research-Technologien“.’7 


Anträge in dieser Linie können jederzeit und ohne spezielle Fristen eingereicht wer- 
den. Der Schwerpunkt liegt bei diesen Programmen auf überregionale Infrastruktur- 
Lösungen, es gibt keine Standortförderung und keine Förderung von Aktivitäten, die 
zu den Grundaufgaben der Einrichtungen gehören (Lehre, Forschung, Infrastruktur). 

Sonderforschungsbereiche (SFBs) können bei der DFG Teilprojekte für Informati- 
onsinfrastrukturen (INF) beantragen.“® In diesen sogenannten INF-Projekten sind 


37 Vgl. Brand et al. 2018. 

38 S. http://www.fdm-nrw.de. 

39 S. https://saxfdm.de. 

40 S. https://bwfdm.scc.kit.edu. 

41 S. https://www.forschungsdaten.info/praxis-kompakt/fdm-in-den-bundeslaendern/baden-wu- 
erttemberg/vfu-projekte-in-baden-wuerttemberg. 

42 S. https://www.forschungsdaten.info/praxis-kompakt/fdm-in-den-bundeslaendern/baden-wu- 
erttemberg/fdm-projekte-in-baden-wuerttemberg. 

43 S. https://www.forschungsdaten.info/praxis-kompakt/fdm-in-den-bundeslaendern/baden-wu- 
erttemberg/science-data-center. 

44 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 

45 S. https://www.dfg.de/foerderung/programme/infrastruktur/lis. 

46 S. https://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/for- 
schungsdaten/index.html. 

47 S. https://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/e-re- 
search_technologien/index.html. 

48 S. https://www.dfg.de/foerderung/programme/koordinierte_programme/sfb/antragsteller/pro- 
grammelement_inf/index.html. 
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nachhaltige FDM-Maßnahmen mit Beteiligung von Infrastruktureinrichtungen in- 
nerhalb eines SFB förderbar. Zusätzlich gab es in den vergangenen Jahren mehrere 
spezifische Ausschreibungen der DFG im Bereich FDM, beispielsweise zur Qualitäts- 
sicherung von Forschungssoftware.”” 

Das BMBF schreibt ebenfalls regelmäßig spezifische FDM-Problemstellungen 
aus. Nach einer Förderlinie zu eher konzeptuellen Ansätzen für das Management 
von Forschungsdaten?® folgte eine Ausschreibung zur Entwicklung und Erprobung 
von Kurationskriterien und Qualitätsstandards von Forschungsdaten*! sowie eine 
fachspezifische Initiative zur Digitalisierung der Materialforschung™. 


Europäische Mittel 


Für FDM-Projektvorhaben, die Partner aus mehreren europäischen Ländern haben 
oder Services auf europäischer Ebene anzielen, können Mittel aus dem Horizon- 
2020 Förderprogramm beantragt werden,” aktuell beispielsweise zu ethischen Fra- 
gen von OpenScience.™ Der OpenAIRE-Verbund,” der Richtlinien, Services, Schu- 
lungen und Vernetzung für den offenen Zugang zu europäischen Forschungsergeb- 
nissen bietet, wird seit 2006 über verschiedene EU-Projekte finanziert.” Auch das 
Nachfolgerprogramm von Horizon 2020, Horizon Europe, beinhaltet einen Bestand- 
teil „Research Infrastructures“ in der Säule „Excellent Science“ und wird Förder- 
möglichkeiten für Projekte bieten, die die Vision der European Open Science Cloud 
(EOSC) mit Leben füllen. 


2.3 Durchführung von FDM-Projekten 


Ist ein FDM-Projekt bewilligt, geht es vor der inhaltlichen Umsetzung der Projektzie- 
le um die Schaffung des organisatorischen Rahmens: Projektmitarbeiterinnen oder 


49 S. https://www.dfg.de/en/research_funding/programmes/infrastructure/lis/funding_opportuni- 
ties/call_proposal_software/index.html. 

50 S. https://www.bmbf.de/foerderungen/bekanntmachung-1233.html. 

51 S. https://www.bmbf.de/foerderungen/bekanntmachung-1791.html. 

52 S. https://www.bmbf.de/foerderungen/bekanntmachung-2627.html. 

53 S.a. Beitrag von Putnings, Kap. 1.3 in diesem Praxishandbuch. 

54 S. https://ec.europa.eu/info/funding-tenders/opportunities/portal/screen/opportunities/topic- 
details/swafs-30-2020. 

55 S. https://www.openaire.eu. 

56 S. https://www.openaire.eu/openaire-history. 

57 S. https://ec.europa.eu/info/horizon-europe-next-research-and-innovation-framework-pro- 
gramme_en. 
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-mitarbeiter müssen eingestellt, eine Kommunikationsinfrastruktur nach innen und 
außen geschaffen und ein Abrechnungs- und Berichtsprozess etabliert werden. 


Gewinnung von Projektmitarbeiterinnen und Projektmitarbeitern 


Je nach Inhalt eines FDM-Projektes ergeben sich verschiedene Anforderungsprofile 
für das Personal, das man einstellen möchte. Meist sind Fähigkeiten erforderlich, 
die auf dem Arbeitsmarkt allgemein sehr gefragt sind: Kreativität und Problemlöse- 
fähigkeit, technische Kompetenz, Affinität zu Daten etc. Möglicherweise ist zusätz- 
lich noch eine fachspezifische Ausrichtung erforderlich, was es oft zusätzlich 
erschwert, Personal zu finden. Darüber hinaus konkurrieren bei Ausschreibungs- 
runden der Forschungsförderer die Projekte noch gleichzeitig um die ohnehin knap- 
pen Personalressourcen. Die Projektplanung sollte daher die notwendige Flexibilität 
haben, mit Personalengpässen umgehen zu können. 

Bereits bei der Wahl der Projektpartner sollte bedacht werden, welche Kompe- 
tenzen und Ressourcen für die Durchführung des Projektes wichtig sind. Idealerwei- 
se bringen die Kooperationspartner nicht nur Know-How, sondern auch Zugänge zu 
qualifiziertem Personal mit. Da Forschungsdatenprojekte oft mit Softwareentwick- 
lung einhergehen, kooperieren Bibliotheken gerne mit den universitären IT-Centern. 
Allerdings haben beide Einrichtungen Schwierigkeiten, geeignetes Personal zu fin- 
den: Die Möglichkeit der Promotion ist in Infrastruktureinrichtungen meist nicht ge- 
geben und der Arbeitsmarkt bietet - gerade in Ballungszentren — besser bezahlte 
Angebote. Wissenschaftliche Institute haben meist mehr Möglichkeiten, qualifizier- 
te Mitarbeiterinnen und Mitarbeiter zu gewinnen. Ein möglicher Ausweg ist die Zu- 
sammenarbeit mit Informatik-Instituten, die Anwendungsfalle für ihre Forschungs- 
schwerpunkte suchen. Die Herausforderung besteht dabei aber darin, gleichzeitig 
konkret einsetzbare Tools zu entwickeln, die gleichzeitig wissenschaftlich interes- 
sant für Informatikerinnen und Informatiker sind. Eine andere Lösung könnte die 
Integration von Mitarbeiterinnen und Mitarbeitern aus Instituten in Form von Use 
Cases sein, die die zu entwickelnde Software in der praktischen Erprobung und Mit- 
entwicklung alltagstauglich machen. Auch in Instituten anderer Fachrichtungen 
finden sich technik- und datenaffine Mitarbeiterinnen und Mitarbeiter. Damit kön- 
nen Doktorandinnen und Doktoranden mit geeignetem Qualifikationsprofil oder der 
entsprechenden Bereitschaft zur Einarbeitung eingestellt werden, die aber im Ge- 
genzug ausreichend Raum für die eigene Forschung brauchen. 


Projektkoordination 


Die Projektleitung kann entweder von bestehendem Personal im Haus übernommen 
oder über das beantragte Projekt eingestellt werden; je nach Projektträger wird eine 
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Eigenbeteiligung erwartet. Wenn die Projektleitung aus einer beantragenden Insti- 
tution kommt, ist es schwieriger, ausreichend Zeitfenster und Energie für das Pro- 
jekt neben dem Tagesgeschäft zu schaffen. Eigens eingestellte Projektleiterinnen 
bzw. -leiter können dagegen ihre gesamte Zeit und Energie dem Projekt widmen, 
allerdings dauert die Einarbeitung länger und das erarbeitete Wissen kann nach Ab- 
schluss des Projektes wieder verloren gehen. Da FDM oft noch kein Regeldienst ist, 
führen die Projektmitarbeitenden oft ein „Satellitendasein“. Zum einen kann das be- 
deuten, dass die in den Projekten entwickelten Dienste und Lösungen schlecht oder 
gar nicht mit den bisherigen Diensten der Einrichtung kompatibel sind. Zum ande- 
ren sind auch die Projektmitarbeitenden nicht mit den Diensten und Abläufen der 
zentralen Einrichtungen vertraut und können so auch keine Verankerung ihrer Ar- 
beit in den bestehenden Diensten sichern. 

Es lohnt sich, zu Beginn des Projektes der Vernetzung und Verankerung der 
Projektmitarbeitenden in den jeweiligen Institutionen Zeit zu geben. Der Erfolg von 
Projekten im Bereich FDM hängt oft ab von einer guten Zusammenarbeit mit be- 
stehenden Diensten und Personen, insbesondere innerhalb der Infrastruktureinrich- 
tungen. 

In der Zusammenarbeit mit wissenschaftlichen Instituten besteht die Aufgabe 
der Projektleitung darin, den Spagat zwischen disziplinspezifischen Problemen und 
generischen Lösungen zu finden. Eine Projektmitarbeiterin bzw. ein Projektmitar- 
beiter muss nicht den Forschungsschwerpunkt des Institutes erforschen, sondern 
das zu lösende Problem verstehen. Aus Infrastruktursicht sollte das Projektziel so 
allgemein sein, dass viele das Resultat nutzen können, aber gleichzeitig so spezifi- 
sche Probleme lösen, dass viele das Ergebnis auch nutzen oder umsetzen wollen. 
Sind mehrere verschiedene Disziplinen beteiligt, kann ein Weg zur Identifikation 
von Gemeinsamkeiten und schließlich einer Lösung erst nach vielen gemeinsamen 
Diskussionen gefunden werden. Die Aufgabe der Infrastrukturpartner kann dann 
darin liegen, die spezifischen fachlichen Anforderungen zu abstrahieren, Gemein- 
samkeiten der Fachkulturen zu identifizieren und Horizonte zu erweitern. Auch den 
Fachwissenschaftlerinnen und -wissenschaftlern tut es gut, mit der Infrastruktur als 
Klammer andere Sichtweisen zu entdecken. 


Kommunikation und Kollaboration 


Da in einem FDM-Projekt in der Regel sehr unterschiedliche Partner aus unter- 
schiedlichen Bereichen bzw. Institutionen beteiligt sind (s.a. Abschnitt 1.2), ist der 
Aufbau eines tragfähigen Kommunikationsnetzwerkes von enormer Bedeutung für 
den Erfolg eines Projektes. Dabei geht es nicht nur um die Kommunikation inner- 
halb des Projektes, sondern auch um die Vernetzung nach außen, die Zusammenar- 
beit mit anderen Akteuren und Projekten und nicht zuletzt um den Aufbau einer 
Nutzer-Community. 
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Für die interne Kommunikation sollten Services wie Wiki-, Projekt- oder Doku- 
mentenmanagementsysteme zur Verfügung stehen, die eine Möglichkeit zur un- 
komplizierten Dokumentation aller Absprachen und Zwischenergebnisse bieten. Re- 
gelmäßige Projekttreffen (auf Governance-Ebene etwa vierteljährlich, auf der 
Arbeitsebene in kürzeren Abständen) treiben das Projekt voran und sorgen für Ver- 
bindlichkeit und ausreichender Priorisierung der Projektziele im Forschungsalltag 
und Tagesgeschäft. 

Zur Vernetzung innerhalb der FDM-Community bieten sich Netzwerke, Work- 
shops und Konferenzen auf verschiedenen Ebenen an: 

Innerhalb von Institutionen existieren teilweise bereits Austauschgremien zum 
Thema FDM, die sich aus Forschenden und Infrastrukturvertreterinnen bzw. -vertre- 
tern zusammensetzen. Solche Gremien können neben der Vorbereitung von Richtli- 
nien und strategischen Entscheidungen auch dazu dienen, Projektpläne und -ergeb- 
nisse frühzeitig mit potentiellen Nutzenden und Betreibenden zu diskutieren. 

Auch die Vernetzungsangebote der Landesinitiativen verschiedener Bundeslän- 
der (s.a. Abschnitt 2.2) bieten die Möglichkeit zur frühzeitigen Kommunikation von 
Projektergebnissen. Beispiele dafür sind der AK Forschungsdatenmanagement in 
Baden-Württemberg,’® der Jour Fixe FDM in Nordrhein-Westfalen,’ der FDM-Kom- 
petenzpool in Bayern‘? oder Austauschgremien innerhalb der Kompetenznetzwerke 
in Thüringen, °' Sachsen,° Hessen‘? oder Brandenburg.“ 

Auf Bundesebene veranstaltet die DINI/nestor-AG Forschungsdaten® Work- 
shops zu verschiedenen FDM-Themen, die sich für die Präsentation von (Zwischen-) 
Ergebnissen eignen. Auch das praxisorientierte Journal „Bausteine Forschungsda- 
tenmanagement“‘ und die Plattform forschungsdaten.org wird von dieser Arbeits- 
gruppe herausgegeben, bzw. betrieben und kann als Sprachrohr für FDM-Projekte 
dienen. Die Informationsplattform forschungsdaten.info, die ursprünglich aus ei- 
nem baden-württembergischen Projekt hervorgegangen ist, wird zukünftig mit for- 
schungsdaten.org zusammengeführt und gemeinsam gepflegt werden. Aktuell be- 
inhaltet forschungsdaten.info vor allem redaktionell bearbeitete Informationen zum 
FDM und eignet sich daher eher für die Darstellung abgeschlossener Projektergeb- 


58 S. https://www.forschungsdaten.info/fdm-im-deutschsprachigen-raum/baden-wuerttemberg/ 
arbeitskreis-forschungsdatenmanagement/. 

59 S. https://www.fdm.nrw/index.php/jour-fixe-fdm. 

60 Koordiniert von der KVB, s. https://www.bib-bvb.de/web/kvb. 

61 S. https://forschungsdaten-thueringen.de/home.html. 

62 S. https://saxfdm.de. 

63 S. https://www.uni-marburg.de/de/forschung/kontakt/forschungsdatenmanagement/projekte/ 
hefdi-hessische-forschungsdateninfrastrukturen. 

64 S. https://www.forschungsdaten.org/index.php/FDM-BB. 

65 S. https://dini.de/ag/dininestor-ag-forschungsdaten. 

66 S. https://bausteine-fdm.de. 
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nisse als für die Diskussion. Auch Arbeitsgruppen innerhalb übergreifender Verbün- 
de, wie die TU9,° bieten Anknüpfungspunkte für Projekte. 

Implementierungsnetzwerke der GO FAIR-Initiative°® ermöglichen Austausch 
und Zusammenarbeit in den Bereichen Kulturwandel (GO CHANGE), Training (GO 
TRAIN) und Infrastruktur (GO BUILD) auf europäischer Ebene. Ein Beispiel ist GO 
UNI, ein nationales Netzwerk deutscher Universitäten innerhalb des GO FAIR Imple- 
mentierungsnetzwerkes „Data Stewardship Competence Center“ (DSCC).° Die Open 
Science Task Force des CESAER-Verbundes” bündelt Kräfte der technischen Hoch- 
schulen auf europäischer Ebene in diesem Bereich. 

Interessen- und Arbeitsgruppen zu vielfältigen Themen im Bereich FDM existie- 
ren innerhalb der internationalen Research Data Alliance (RDA). Der Verein RDA- 
DE” fungiert als nationale Schnittstelle zur RDA und veranstaltet jährliche Tagun- 
gen zum Thema Forschungsdatenmanagement. 

Fast noch wichtiger als der Austausch und die Vernetzung innerhalb der FDM- 
Community ist es aber, die Diskussion mit den Fachwissenschaftlerinnen und -wis- 
senschaftlern zu führen. Beteiligte Fachwissenschaftlerinnen und -wissenschaftler 
können die Ergebnisse und Vorgehensweisen von FDM-Projekten auf fachwissen- 
schaftlichen Konferenzen vorstellen und diskutieren. 


Abrechnung und Berichterstattung 


Die unterschiedlichen Projektträger verlangen in der Regel eine Berichterstattung 
über den Fortgang und die Ergebnisse eines Projektes. Je nach Projektträger kann 
diese Berichterstattung verschieden aufwendig sei. Während bei einem DFG-Projekt 
i.d.R. nur ein Abschlussbericht am Ende des Projektes fällig wird, verlangt das 
BMBF jährliche Zwischenberichte und eine umfangreiche Berichterstattung am 
Ende des Projektes. Landesprojekte, die auf die Vernetzung der Akteure im FDM ab- 
zielen, sehen darüber hinaus meist noch weitere Vernetzungsaktivitäten vor, die 
mit regelmäßiger Kommunikation über den Projektstand verbunden sind. Die not- 
wendigen zeitlichen Ressourcen für die Abstimmung und Erstellung solcher Berich- 
te müssen von vorhinein in den Projektplan mit aufgenommen und eingeplant wer- 
den. 

Auch die Anforderung und Abrechnung der Projektmittel ist mit zeitlichem Auf- 
wand verbunden. Während die inhaltliche Berichterstattung nur durch die fachli- 


67 S. https://www.tu9-universities.de. 

68 S. https://www.go-fair.org; s.a. Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 
69 S. https://www.go-fair.org/implementation-networks/overview/dscc/. 

70 S. https://www.cesaer.org/task-forces/task-force?id=34. 

71 S. https://www.rda-deutschland.de/. 
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chen Projektmitarbeitenden geschehen kann, sind für die finanzielle Abrechnung in 
der Regel Ressourcen für die Unterstützung innerhalb der Institutionen vorhanden. 
Nicht immer sind Rechnungsstellen oder Finanzabteilungen aber auf die Abwick- 
lung von Projekten eingestellt. Sollen projektexterne Ressourcen dafür genutzt wer- 
den, empfiehlt es sich, so früh wie möglich ins Gespräch mit diesen Stellen zu ge- 
hen, die Verantwortlichkeiten festzulegen und die Anforderungen einzuplanen. 


2.4 Verstetigung der Ergebnisse 


Bei jedem Projekt besteht die Gefahr, dass die erarbeiteten Ergebnisse nach Beendi- 
gung des Projektes und damit der Finanzierung nicht weiter gepflegt werden, veral- 
ten und damit nicht mehr weiter nutzbar sind. Können Projektmitarbeitende nicht 
gehalten werden, geht wertvolles Wissen und Erfahrung verloren. 


Übernahme durch Institution 


Idealerweise findet sich am Projektende eine Institution oder Organisation, die die 
weitere Pflege und (Fort-)Entwicklung der Ergebnisse und erstellten Infrastrukturen 
übernimmt. Beispielsweise übernahm der DataCite e.V. im Jahr 2015 die weitere 
Pflege des Repositoriumsverzeichnisses re3data. 


Anschlussprojekt 


Hat das Projekt neue Fragestellungen und Anknüpfungspunkte aufgeworfen, bietet 
sich ein Anschlussprojekt an. Um Projektmitarbeitende übergangslos halten zu kön- 
nen, muss mindestens ein Jahr vor Projektende mit dem Entwurf eines Folgeantra- 
ges begonnen werden. Services wie Zenodo oder Pangaea wurden in einer Folge 
von Projekten immer weiterentwickelt und damit über viele Jahre mit Projektmitteln 
finanziert. 


FDM für FDM-Projekte 
Auch für die Ergebnisse von FDM-Projekten gilt: Die Projektergebnisse sollten 


auffindbar, erreichbar, interoperabel und nachnutzbar, also FAIR” sein, damit sie 
langfristig verständlich und von einer möglichst großen Gemeinschaft nutzbar sind. 


72 S. https://www.force1l.org/group/fairgroup/fairprinciples. 
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Der Quellcode von Software, die Rohdaten von Befragungen, Konzepte, Handrei- 
chungen und Erfahrungen müssen veröffentlicht werden, damit andere darauf auf- 
setzen können. 


Gemeinsame Pflege durch eine Community 


Wurden die Möglichkeiten zur Vernetzung und Veröffentlichung der Ergebnisse (s. 
Abschnitt 2.3) genutzt, gibt es idealerweise bereits eine Community an Nutzerinnen 
und Nutzer, die an einer Pflege und Weiterentwicklung interessiert sind. (Beispiel: 
Informationsplattform forschungsdaten.info). Verteilen sich die Aufgaben der Wei- 
terentwicklung auf mehrere Schultern, können sie wahrscheinlicher ins Tagesge- 
schäft einer Institution übernommen werden. Doch je größer eine Community wird, 
umso aufwendiger ist auch deren Koordination. 


Kostenmodell 


Der Betrieb eines Services kann langfristig auch über ein kostenpflichtiges Modell 
finanziert werden. Dafür muss ein Kostenmodell und Geschäftsmodell entwickelt 
sowie ein Abrechnungssystem geschaffen werden. Ein Beispiel dafür ist der Reposi- 
toriumsdienst RADAR,” der über eine Grundgebühr die Finanzierung einer Stelle 
und durch speicherplatzabhängige Kosten die laufenden Speicherkosten für For- 
schungsdaten deckt. Ein anderes Beispiel für FDM-Dienstleistungen ist das Angebot 
der GESIS, das kostenlose Basisdienste durch kostenpflichtige Premiumdienste er- 
gänzt.’* Für eine Preiskalkulation müssen u.a. Personal (Arbeitszeitschätzungen), 
Bewirtschaftungskosten, Sachkosten und Investitionen mit in Bezug genommen 
werden und ein Abrechnungsmodell innerhalb der rechtlichen Rahmenbedingun- 
gen entwickelt werden.” Insbesondere die rechtlichen (Betriebs- und Geschäfts- 
form) und haftungstechnischen Fragen können Einrichtungen wie z. B. Bibliotheken 
vor ein großes Problem stellen. 


73 S. https://www.radar-service.eu/de/preise. 

74 S. https://www.gesis.org/fileadmin/upload/dienstleistung/Archivierung/GESIS_DAS_Serviceka- 
talog2019_en.pdf. 

75 Vgl. Lemaire 2019, 7-16. 
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Fazit 


Die aktuelle Entwicklung im FDM ist geprägt von Projekten, da FDM selbst ein For- 
schungs- und Entwicklungsgegenstand ist, für den noch keine fertigen Lösungen 
existieren. Einige Projekte haben bereits eine Verstetigung ihrer Ergebnisse erreicht. 
Viele andere Projektideen arbeiten parallel an der Lösung ähnlicher Anforderungen. 
Erst nach einiger Zeit wird sich zeigen, welche Ideen sich etablieren können. Dazu 
ist nicht nur der Austausch unter den Infrastrukturanbietern auf nationaler und in- 
ternationaler Ebene wichtig, umso wichtiger ist die Kommunikation in die wissen- 
schaftliche Community. 

Projekte im Bereich FDM schaffen die Voraussetzungen für existierende und zu- 
künftige Dienste und Angebote, Forschungsdaten zu beschreiben, zu verwalten und 
zu verbreiten. Das Besondere an diesen Projekten ist das Zusammenbringen ver- 
schiedener Stakeholder mit unterschiedlichen Blickwinkeln, z.B. Forschende mit 
der spezifischen Definition der Anforderungen und Infrastruktureinrichtungen mit 
ihrer Erfahrung im Betrieb von Diensten. Nur gemeinsam kann es gelingen, nach- 
haltig tragfähige Lösungen zu entwickeln, die eine real existierende Problemstel- 
lung einer breiten Nutzercommunity lösen und von Forschenden gewinnbringend 
verwendet werden. 
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Janna Neumann 
5 Datentransfer und -nachnutzung 


Abstract: Der Datentransfer und die Datennachnutzung im Kontext des Forschungs- 
datenmanagements stehen im Zusammenhang mit der Zugänglichkeit von Daten im 
Rahmen des Publikationsprozesses. Dabei beziehen sich die Anforderungen beim 
Zugang zu Forschungsdaten in der Praxis auf die jeweilig unterschiedliche Perspek- 
tive der Forschenden als Datenproduzierende oder Datennutzende. Eine Nachnut- 
zung von Forschungsdaten steht dabei oftmals in Relation mit deren Publikation. 


1 Begriffsdefinition 


Die Begriffe Datentransfer und Datennachnutzung im Kontext des wissenschaft- 
lichen Forschungsdatenmanagements beziehen sich zum einen auf die Transforma- 
tion der Rohdaten in interpretierbare und zum anderen in nachnutzbare Daten. 
Während sich die Interpretierbarkeit von Daten in diesem Kapitel hauptsächlich auf 
die Visualisierung bezieht, orientiert sich das Thema Nachnutzbarkeit von For- 
schungsdaten an einem breiteren Rahmen, wie nachhaltige Aufbewahrung und Ver- 
fügbarkeit, qualitätsgesicherte und rechtssichere Zugänglichkeit, Auffindbarkeit so- 
wie zitierfähige Publikation.! Diese Aspekte finden sich in vielen Beiträgen über das 
gesamte Praxishandbuch wieder. 

Beim Versuch, den Begriff Datennachnutzung zu definieren, wird jedoch 
schnell klar, dass eine eindeutige Abtrennung von Nutzung und Nachnutzung nicht 
gegeben ist. Einer Nachnutzung geht eine Nutzung immer voraus, jedoch stellen 
sich Pasquetto et al. die Frage, ob die nochmalige Nutzung eigener, bereits publi- 
zierter Daten, eine Nachnutzung im Sinne der allgemein anerkannten Datenpraxis 
ist.? 

Die Relation von Nutzung und Nachnutzung haben van de Sandt et al. in einer 
graphischen Darstellung abgebildet. Hierbei können Nutzung und Nachnutzung als 
zwei voneinander getrennte Mengen agieren (Abb. 1, Grafik a.). Nachnutzung kann 
aber auch eine Teilmenge der Nutzung sein (Abb. 1, Grafik b.), oder aber die Begriffe 
unterscheiden sich nicht voneinander (Abb. 1 Grafik c.). 


1 Vgl. Rat für Informationsinfrastruktur 2016. 
2 Vgl. Pasquetto et al. 2017, 3. 
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Abb. 1: Relation zwischen Nutzung und Nachnutzung (nach van de Sandt et al. 2019, 6). 


Van de Sandt et al. haben in ihrem Artikel ebenfalls den Versuch unternommen, 
den Begriff Nachnutzung zu definieren. Dies zielte darauf ab, mit einer gemeinsam 
abgestimmten Definition Missverstandnisse in der Wissenschaftskommunikation zu 
klären.’ Die Etymologie des Begriffs wird mit Hilfe des Oxford Dictionary erläutert, 
der Nachnutzung als „to use again or more than once“ definiert, wobei der Begriff 
„Nutzung“ nicht weiter erläutert wird. Durch die Verknüpfung mit verwandten Be- 
griffen, wird versucht die doch sehr allgemein gehaltene Definition besser zu erläu- 
tern: 


The action of using becomes more clear through the definition of related terms (replication, 
reproduction, reanalysis, restudy). The Oxford Dictionary only indicates that the object has to 
be used several times, which is true for all of the terms above. According to this definition, 
replication, reanalysis, reproduction, reinterpretation and subsequent research can be forms of 
reuse.’ 


Hier zeigt sich bereits, dass die Nachnutzung beim Übergang aus dem definito- 
rischen in die reale Welt sich weitaus komplexer darstellt. Es wird immer verschie- 
dene Szenarien der Nachnutzung geben, abhängig von der Art der Daten, den Nach- 
nutzenden, dem Zweck und der Zeit der Nachnutzung. Auch zeigt sich dabei, dass 
Nutzung und Nachnutzung keine voneinander unabhängige Menge sind, sondern 
sich immer in Interaktion mit einer Ressource befinden. Dementsprechend fällt 
hier die Definition wie folgt aus: „Thus, we define (re)use as the use of any research 
resource regardless of when it is used, the purpose, the characteristics of the data 
and its user.“ 


3 Van de Sandt et al. 2019, 1. 

4 Oxford Dictionary, 1995, 1178. 
5 Van de Sandt et al. 2019, 3. 
6 Van de Sandt et al. 2019, 13. 
7 Van de Sandt et al. 2019, 14. 
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2 Aspekte des Datentransfers und der -nachnutzung 


Die wissenschaftliche Nachnutzung qualitätsgesicherter Forschungsdaten steht für 
einige Forschende zu Beginn des Forschungsprozesses, für andere befindet sich der 
Schritt hin zur Zugänglichkeit von Forschungsdaten für deren Nachnutzung am 
Ende dieses Prozesses. Somit verändern sich mit dem Wechsel der Perspektiven 
auch die Anforderungen in der Praxis. Während für die einen die Suche, das Finden 
von und der rechtssichere Zugriff auf diese Forschungsdaten zur Nachnutzung für 
die eigene Forschung wesentlich ist, haben die anderen Interesse daran, eigene For- 
schungsdaten zur Nachnutzung zugänglich zu machen und durch Zitation mit ihrer 
Forschung in der eigenen Community sichtbarer zu werden. So können z.B. durch 
aussagekräftige Metadaten die Zugänglichkeit und durch geeignete (offene) Nut- 
zungslizenzen die rechtssichere Nachnutzbarkeit gewährleistet werden. Für die Zu- 
sänglichkeit zu Daten müssen aber auch geeignete Publikationsorte, wie beispiels- 
weise fachübergreifende oder -spezifische Forschungsdatenrepositorien zur 
Verfügung stehen und standardisierte Zitationspraktiken etabliert werden. In die- 
sem Kapitel werden verschiedene Aspekte des Datentransfers und der -nachnutzung 
ausgehend von beiden Perspektiven thematisiert und an Praxisbeispielen veran- 
schaulicht. 

Der Beitrag von Friedrich und Recker, 5.1 „Auffindbarkeit und Nutzbarkeit von 
Daten“, behandelt dabei, in welchem Rahmen Forschungsdaten auffindbar sind 
(aus der Perspektive der Datennutzenden) und sie (aus der Perspektive der Daten- 
produzierenden) beispielsweise zum Zweck der Replikation nutzbar sind; und er 
gibt Empfehlungen, wie beides optimierbar ist. Auch der Beitrag von Pampel und 
Elger, 5.6 „Publikation und Zitierung von digitalen Forschungsdaten“, betrachtet 
die unterschiedlichen Blickwinkel der Forschenden. Es werden verschiedene wis- 
senschaftliche Publikationsverfahren für Daten beschrieben, die sich bereits in eini- 
gen Fachdisziplinen etabliert haben und die als Blaupause für andere Fachgebieten 
dienen können. Daneben wird die Anwendung verschiedener Zitationspraktiken, 
die für Forschungsdaten als Grundlage wissenschaftlicher Forschungsergebnisse im 
Rahmen der guten wissenschaftlichen Praxis ebenso beachtet werden sollten, erläu- 
tert. Im Beitrag von Thiemann et al., 5.5 „Beispiele für Data Sharing am Deutschen 
Klimarechenzentrum (DKRZ)“, wird die Nachnutzung von disziplinären Forschungs- 
daten aus der Klimaforschung im Kontext von interdisziplinärer Forschung erläu- 
tert. Dabei werden die Anforderungen an die Datenproduzierenden sowie die 
Dienste zur Transformation in für fachfremde Forschende interpretierbare For- 
schungsdaten dargelegt. Es wird an einem ganz praktischen Beispiel der Daten- 
transfer und die -nachnutzung aus der Perspektive einer Infrastruktureinrichtung 
diskutiert und die Einbindung der Sichtweisen der Datenproduzierenden sowie der 
-nutzenden thematisiert. 

Der Beitrag von Henrich et al., 5.2 „Data Retrieval“, befasst sich mit der Suche 
nach und in Forschungsdaten. Auch hierbei werden beide Perspektiven der Daten- 
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nutzenden wie den Datenbereitstellenden dargelegt und die Diskrepanz zwischen 
der Forderung nach zum einen fachspezifischer und zum anderen fachtibergreifen- 
der Recherchemöglichkeit diskutiert. 

Im Beitrag von Nazemi et al., 5.4 „Datenvisualisierung“, werden verschiedene 
Möglichkeiten zur visuellen Projektion und Transformation von Daten dargelegt. 
Forschungsdaten werden hierbei überwiegend für die Nachnutzung bzw. für die 
Interpretierbarkeit mit einem bestimmten visuellen Modell dargestellt. Die Visuali- 
sierung ermöglicht es, dass Daten für die menschliche Wahrnehmung in eine zu 
analysierende Darstellung überführt werden, um damit z.B. eine bestimmte Frage- 
stellung zu beantworten. 

Der Beitrag von Engelhardt und Kusch, 5.3 „Kollaboratives Arbeiten mit Daten“, 
beschäftigt sich mit den Herangehensweisen und Spannungsfeldern bei der projekt- 
internen oder auch -übergreifenden Zusammenarbeit mit Forschungsdaten. Die Ver- 
wendung von Werkzeugen stellt dabei die technische Basis für die gemeinsame Be- 
arbeitung und Nutzung von Forschungsdaten. Kollaborationen bergen jedoch je 
nach Komplexität und Heterogenität des Konsortiums sowie der Daten Herausforde- 
rungen, die auch anhand von zwei Fachdisziplinen in einem Praxistransfer darge- 
stellt und diskutiert werden. 


Fazit 


Die Themenfelder Datentransfer und -nachnutzung zeichnen sich vor allem dadurch 
aus, dass sie je nach Blickwinkel mit verschiedenen Herausforderungen konfrontiert 
sind. Die Nachnutzung von Daten ist Grundlage für effiziente Forschung mit neuen 
Fragestellungen. Grundlage für die Möglichkeit der Nachnutzung ist die Publikation 
von Forschungsdaten in einer möglichst offenen Struktur. Somit bedingen die Da- 
tenpublikation und ihre jeweilige Gestaltung die Möglichkeiten der Nachnutzung. 
Je offener die Daten, desto einfacher wird die Nachnutzung möglich. Anderseits gilt 
es aber auch, den Schutz von Daten bzw. den Schutz von urheberrechtlichen Wer- 
ken, sofern dieser auf Forschungsdaten zutrifft, zu gewährleisten. Mit geeigneten Li- 
zenzierungsmodellen, die mögliche Nachnutzungen regeln, kann dem entgegenge- 
treten werden. 

Wichtig scheint, dass sich Forschende immer über beide Sichtweisen bewusst 
werden müssen, da sie meist nicht ausschließlich eine der Perspektiven einnehmen, 
sondern sich in einem Wechselspiel zwischen Datenproduzierendem und Daten- 
nachnutzendem befinden. Im derzeitigen Wandel in den Wissenschaften müssen je- 
doch auch noch geeignete Strukturen und standardisierte Regeln für beide Seiten 
sowohl geschaffen als auch etabliert werden. 
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Tanja Friedrich und Jonas Recker 


5.1 Auffindbarkeit und Nutzbarkeit von Daten 


Abstract: In diesem Beitrag wird thematisiert, wie und wo Daten fiir die Forschung 
auffindbar sind und welche Faktoren dariiber entscheiden, ob und wie Forschende 
Daten im Rahmen ihrer eigenen Arbeit oder zu Replikationszwecken nutzen kön- 
nen. Hierbei stehen verschiedene Agierende mit ihren jeweiligen Perspektiven im 
Fokus der Betrachtung - neben den Datennutzenden auch die Datenproduzieren- 
den und die Informationsinfrastrukturen, die Forschungsdaten speichern und zu- 
gänglich machen. Aufbauend auf einer Analyse des Status quo gibt das Kapitel 
praktische Empfehlungen, wie die Auffindbarkeit und Nutzbarkeit von Forschungs- 
daten verbessert werden können. 


Einleitung 


Die Auffindbarkeit und (Nach-)Nutzbarkeit von Forschungsdaten zu verbessern ist 
erklärtes Ziel diverser Initiativen zum Aufbau und zur Förderung von Forschungsin- 
frastrukturen.' Findability und reusability gehören außerdem zu den 2014 entwi- 
ckelten FAIR Guiding Principles for scientific data management and stewardship.? 
Diese Prinzipien sind aktuell Gegenstand verschiedener Initiativen zur Verbesse- 
rung von Forschungsdateninfrastrukturen für die Wissenschaft.’ 

Angesichts weiter wachsender Datenmengen und steigender Diversifizierung 
von Datenarten wird das Auffinden geeigneter Daten zur Nachnutzung zunehmend 
zur Herausforderung.” Das Problem, keine geeigneten Forschungsdaten zu finden, 
ist einer der wichtigsten Hinderungsgründe für die Nachnutzung von Daten.’ Die 
Nutzung aufgefundener Daten in der eigenen Forschung oder zum Zweck der Repli- 
kation von publizierten Forschungsergebnissen ist ebenfalls mit Herausforderungen 
verbunden. Diese ergeben sich aus technischen, rechtlichen und ethischen Rah- 
menbedingungen sowie aus der intellektuellen Zugänglichkeit und Verstehbarkeit 
der Daten. 

Im ersten Teil dieses Kapitels wird der Status quo der Auffindbarkeit von For- 
schungsdaten aus den Perspektiven der Datenproduzierenden, der Nutzenden und 


1 Vgl. Kommission Zukunft der Informationsinfrastruktur 2011; Wissenschaftsrat 2012; European 
Commission 2016; Deutsche Initiative für Netzwerkinformation 2018. 

2 Vgl. Wilkinson et al. 2016. 

3 S. Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 

4 Vgl. Gregory et al. 2018, 1. 

5 Vgl. Shen 2015, 172. 
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der Infrastruktur beschrieben.° Dabei werden aktuelle Probleme dargestellt und es 
werden Empfehlungen zur Verbesserung der Auffindbarkeit gemacht. Der zweite 
Abschnitt behandelt die Nutzbarkeit von Forschungsdaten unter Berücksichtigung 
der genannten Dimensionen (Technik, Recht, Ethik, Zugänglichkeit, Verstehbar- 
keit), die die Nutzbarkeit bedingen. Auch hier werden Empfehlungen für eine Ver- 
besserung und Weiterentwicklung auf Grundlage des Status quo gemacht. 


1 Auffindbarkeit von Daten 


Die Ursachen für Probleme beim Auffinden von Daten sind vielfältig. Eine Heraus- 
forderung ist z.B. die breit verteilte Datenhaltung. Daten entstehen in den unter- 
schiedlichsten Kontexten: in Unternehmen und sozialen Medien, in Behörden und 
in der Wissenschaft.’ Selbst bei isolierter Betrachtung des wissenschaftlichen Be- 
reichs wird die breite Dispersion von Forschungsdaten deutlich: Sie sind verteilt auf 
zahlreiche disziplinäre oder interdisziplinäre, institutionelle und institutionsüber- 
greifende Datenrepositorien.® 

Der weitaus größte Teil theoretisch nachnutzbarer Daten ist schon allein des- 
halb nicht auffindbar, weil die Datenproduzierenden diese nicht verfügbar machen. 
Die Motivation, die in einem Forschungsprojekt erhobenen Daten mit der For- 
schungscommunity zu teilen, ist nach wie vor zu gering.’ Vorgaben seitens For- 
schungsförderungseinrichtungen und Anreizsysteme sollen Forschende zum Data 
Sharing motivieren, bisher jedoch mit unzureichendem Erfolg.'!° 

Data Sharing spielt auch für Unternehmen eine große Rolle. Allerdings haben 
diese naturgemäß kein Interesse daran, ihre Daten für die breite Öffentlichkeit zu- 
sänglich zu machen, sondern beschränken ihre Aktivitäten auf das Teilen ihrer Da- 
ten mit Kunden und Geschäftspartnern."' Offene Verwaltungsdaten (Open Go- 
vernment Data) wiederum stehen gemäß Gesetzgebung"? zunehmend der Öffentlich- 
keit zur Verfügung. Die Auffindbarkeit dieser Daten ist allerdings bislang durch 
vielfach unzureichende Beschreibung mit Metadaten erschwert.” 


6 S.a. Beitrag von Henrich, Gradl und Jegan, Kap. 5.2 in diesem Praxishandbuch für eine techni- 
schere Perspektive zum Data Retrieval. 

7 S.a. Beiträge zu den entsprechenden Datenmärkten in Kap. 3 in diesem Praxishandbuch. 

8 Vgl. Rat für Informationsinfrastrukturen 2019, 44 f. 

9 Vgl. Fecher und Puschmann 2015, 146. 

10 Vgl. Tenopir et al. 2015, 4. 

11 Vgl. Fedkenhauer et al. 2017, 11. 

12 Vgl. E-Government-Gesetz vom 25. Juli 2013 (BGBl. I S. 2749), das zuletzt durch Artikel 15 des 
Gesetzes vom 20. November 2019 (BGBl. I S. 1626) geändert worden ist. 

13 Vgl. Chapman et al. 2019, 258. 
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Generell lässt sich festhalten, dass es unabhängig von Sektor oder Disziplin der 
Datenentstehung häufig an einer einheitlichen Dokumentation und einer nachnut- 
zungsorientierten Inhaltsbeschreibung mangelt." Ursächlich sind hier nicht nur die 
unterschiedlichen Kontexte in denen die Daten entstehen, sondern auch das Fehlen 
genauer Kenntnisse der Bedürfnisse und Praktiken bei der Datensuche und daraus 
ableitbarer Dokumentationsstandards. 


Systemperspektive: Wo Daten aufzufinden sind 


Daten entstehen im Kontext und als Bezugspunkte zur Wirklichkeit.” Viele Daten 
werden durch geplante Beobachtung erhoben, andere entstehen als Beiprodukt 
menschlichen (Online-)Verhaltens oder automatisierter Prozesse. Ob und wie Daten 
auffindbar sind, hängt zunächst mit ihrer Verfügbarkeit zusammen. Bei weitem 
nicht alle Daten sind überhaupt zur Nachnutzung bestimmt, weshalb viele Daten 
überhaupt nicht auffindbar gemacht werden oder sind. In der Wissenschaft produ- 
zierte Daten werden immer häufiger verfügbar gemacht, nicht zuletzt weil dies zu- 
nehmend Voraussetzung für Forschungsförderung ist (siehe z.B. die Leitlinien zur 
Sicherung guter wissenschaftlicher Praxis der Deutschen Forschungsgemein- 
schaft!°). Doch Richtlinien allein führen nicht zwangsweise dazu, dass Forschungs- 
daten auch tatsächlich veröffentlicht werden.” In manchen Fällen stehen der Da- 
tenveröffentlichung sogar rechtliche, ethische oder zuweilen auch praktische Grün- 
de entgegen.'® 

Eine verteilte, informelle Datenhaltung steht der professionellen Datenarchivie- 
rung zum Zweck der Nachnutzung gegenüber.” Entstehen in der Forschung Daten, 
werden sie in der Regel zwar lokal oder in kleinen Netzwerken gespeichert oder so- 
gar mit anderen geteilt. Eine langfristige Archivierung in einem der breiteren For- 
schungsgemeinschaft zugänglichen Repositorium findet jedoch nur zum Teil statt. 
Selbst wenn lokal gehaltene Daten auf persönlichen oder institutionellen Webser- 
vern zur Verfügung gestellt werden, entziehen sie sich der Auffindbarkeit (ganz ab- 
gesehen von der Problematik der langfristigen Sicherung der Daten). Repositorien 
reichern archivierte Daten mit Metadaten an, die die Daten mit für die Nachnutzung 
relevanten Informationen mehr oder weniger ausführlich beschreiben. Dadurch 
werden Daten im Katalog des jeweiligen Repositoriums, aber auch in Metasuchpor- 


14 Vgl. Fecher und Puschmann 2015, 149. 

15 Vgl. Borgman 2015, 17 f. 

16 Vgl. Deutsche Forschungsgemeinschaft 2019 und hierzu den Beitrag von Putnings, Kap. 1.3 in 
diesem Praxishandbuch. 

17 Vgl. Borgman 2015, 206. 

18 S. Abschnitt 2.2 in diesem Beitrag. 

19 Vgl. Kitchin 2014, 29 f. 
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talen (z.B. DataCite”®) und in Datensuchmaschinen (z.B. Google dataset search”) 
auffindbar. 

Die organisatorischen und technischen Voraussetzungen fiir die Auffindbarkeit 
von Daten leisten verschiedene Infrastrukturangebote. Fiir die akademische For- 
schung sind besonders Repositorien fiir das Auffinden von Daten relevant, denn 
diese sind gleichzeitig Such- und Speicherort archivierter Daten. Der Forschung ste- 
hen zahlreiche institutionengebundene (zum Beispiel fiir Mitglieder einer Universi- 
tät) oder institutionsübergreifende Repositorien (zum Beispiel fiir Forschende einer 
bestimmten Disziplin) zur Verfügung. Forschungsdatenrepositorien (FDR) können 
über entsprechende Suchdienste, zum Beispiel das Registry of Research Data Repo- 
sitories (re3data)” aufgefunden werden. Fachspezifische Repositorien werden häu- 
fig von außeruniversitären Forschungseinrichtungen bereitgestellt, z.B. das geo- 
und umweltwissenschaftliche Repositorium Pangaea,” das vom Alfred-Wegener-In- 
stitut für Polar- und Meeresforschung (AWI) und dem Zentrum für Marine Umwelt- 
wissenschaften (MARUM) betrieben wird. An Universitäten entstehen immer häufi- 
ger fächerübergreifende Repositorien, die nach Daten der Universitätsangehörigen 
durchsucht werden können. Insbesondere im Bereich der fächerübergreifenden Re- 
positorien gibt es auch Initiativen von Non-Profit-Organisationen (z.B. Dryad,” 
Open Science Framework”) oder von kommerziellen Anbietern (z. B. Figshare°), de- 
ren Bestände wesentlich größer sind als beispielsweise die der einzelnen universitä- 
ren Anbieter. 

Die bestehende, breit verteilte Archivierung von Forschungsdaten bedeutet, 
dass die Suche nach Forschungsdaten häufig sehr aufwendig ist. Es sind daher eini- 
ge Dienste entstanden, die Forschungsdatenbestände aggregiert nachweisen, z.B. 
das Angebot GFBio,” das vom Konsortium German Federation for Biological Data 
betrieben wird und die übergreifende Suche in den Beständen von neun Datenzen- 
tren aus dem Bereich der Biologie ermöglicht. Das fächerübergreifende Dataverse- 
Projekt der Harvard University” hat eine Software entwickelt, mit der Einrichtungen 
weltweit Repositorien einrichten können, deren Bestände im Harvard Dataverse ge- 
meinsam durchsucht werden können. Eine fächerübergreifend föderierte Suche bie- 
tet das internationale Konsortium DataCite an, in dem alle Datensätze auffindbar 
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sind, die durch eine DataCite-Mitgliedsinstitution einen registrierten Digital Object 
Identifier (DOI) erhalten haben. 

Auch wissenschaftliche Zeitschriftenverlage haben ein Interesse am Auf- und 
Ausbau von Forschungsdateninfrastrukturen. Sie fordern in der Regel, dass die ei- 
ner Veröffentlichung zugrundeliegenden Daten mindestens zum Zweck des Peer-Re- 
views, idealerweise aber auch zugänglich für die Wissenschaft zur Verfügung ge- 
stellt werden. Einige Verlage bieten sogar eigene Repositorien an (z.B. das Journal 
of Cell Biology”), während andere mit existierenden Repositorien kooperieren, in 
denen die zu den Publikationen gehörenden Daten veröffentlicht werden (z.B. ko- 
operiert die Zeitschrift für Soziologie mit dem Replikationsserver SowiDataNet|dato- 
rium?®). Die meisten Verlage geben generelle Auswahlkriterien für ein Repositorium 
oder direkt eine ganze Liste von Repositorien an, bei denen Daten archiviert werden 
können. Ein in der Verlagswelt noch relativ neues Phänomen sind dezidierte Daten- 
zeitschriften (Data Journals), in denen nicht die Beschreibung von Forschungser- 
gebnissen, sondern von Forschungsdaten im Vordergrund steht (z.B. das Research 
Data Journal for the Humanities and Social Sciences”). Diese Zeitschriften ermögli- 
chen die Veröffentlichung von Daten durch ein Peer-Review-Verfahren. Welche Re- 
levanz Datenzeitschriften für das Auffinden von Forschungsdaten haben, bleibt 
noch abzuwarten. Einige Datenzeitschriften wurden bereits wieder eingestellt. Ver- 
lage bieten aber inzwischen auch generische Möglichkeiten der Datensuche an, 
zum Beispiel in Form des von Elsevier betriebenen Mendeley Data.” Auch hier wer- 
den Metadaten aus verschiedenen Repositorien (z.B. Dryad, Pangaea) aggregiert 
und durchsuchbar gemacht. Der Datenbankanbieter Web of Science bietet mit dem 
Clarivate Data Citation Index” eine ähnliche, allerdings kostenpflichtige Datensu- 
che an, die die einzelnen Datensatznachweise um in anderen Datenbanken des Web 
of Science enthaltene Literaturnachweise ergänzt, die diese Datensätze zitieren. Seit 
2018 bietet auch Google unter dem Namen Dataset Search einen Dienst an, der dar- 
auf ausgerichtet ist, möglichst alle im World Wide Web verfügbaren Forschungsda- 
ten als solche zu identifizieren, zu indexieren und so durchsuchbar zu machen. 

Alle aktuellen Bemühungen, die in Richtung einer umfassenden Durchsuchbar- 
keit aller Forschungsdatenbestände gehen, müssen grundlegende Herausforderun- 
gen adressieren. Diese reichen von ganz grundlegenden Problemen wie der Frage, 
welche Objekte überhaupt als Forschungsdaten zu identifizieren sind, bis hin zum 
Problem mangelnder Standardisierung der Metadaten, die von den datenhaltenden 
Stellen generiert werden. 
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Neben den an Universitäten und außeruniversitären Einrichtungen entstehen- 
den Forschungsdaten spielen offene Verwaltungsdaten (Open Government Data) 
eine wichtige Rolle für Forschende aus allen Sektoren, aber auch für Privatperso- 
nen.” Organisationen wie die Open Knowledge Foundation (OKF)” fordern öffentli- 
che Verwaltungen daher auf, ihre Daten, soweit rechtlich möglich, einer breiten Öf- 
fentlichkeit zur Nutzung zugänglich zu machen. Die OKF hat unter anderem die Ent- 
wicklung der Software CKAN°® vorangetrieben, die weltweit von Institutionen der 
öffentlichen Verwaltung genutzt wird, um Verwaltungsdaten zugänglich zu ma- 
chen, in Deutschland zum Beispiel vom Datenportal Govdata.*’ Aktuell stehen offe- 
ne Verwaltungsdaten noch nicht in ausreichendem Umfang zur Verfügung und sind 
vielfach nicht in einer Art und Weise beschrieben, dass sie über Portale wie CKAN 
oder in anderen Kontexten leicht auffindbar sind.** 

Unabhängig von den genannten Initiativen existieren für und in Unternehmen 
ganz andere Infrastrukturen für das Datenmanagement. Die dort zum Einsatz kom- 
menden Data Warehouses? müssen abweichende Voraussetzungen erfüllen als 
FDR in der Wissenschaft. Für Unternehmen ist zwar auch wichtig, dass die Infra- 
struktur effizientes Data Sharing ermöglicht, sei es intern, mit Kunden oder anderen 
Unternehmen,“ Data Warehouses müssen aber gleichzeitig sicherstellen, dass zu 
keiner Zeit ein unautorisierter Zugriff auf die Daten möglich ist. Sie müssen sowohl 
höchst interoperabel und effizient arbeiten, als auch Kunden- und Unternehmens- 
daten nach außen sichern und schützen. 


Nutzendenperspektive: Wie nach Daten gesucht wird 


Nachnutzbare Forschungsdaten stehen trotz der bestehenden Lücken und trotz vor- 
handener Qualitätsunterschiede in großer Fülle zur Verfügung. Auffindbar sind die- 
se Daten, wie beschrieben, über eine Vielzahl digitaler Dienste, von Repositorien 
über digitale Zeitschriften bis hin zu Datensuchmaschinen. Dennoch werden poten- 
tiell passende Daten häufig nicht gefunden.” 

Jegliche Vorhaben, Infrastrukturdienste im Sinne der Auffindbarkeit der Daten 
zu optimieren, sollten berücksichtigen, wie und wo Nutzende tatsächlich nach Da- 
ten suchen. Wie die Forschung zu dieser Frage zeigt, erfahren sie von geeigneten 
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Daten üblicherweise von anderen Forschenden. Zum Beispiel besuchen sie Konfe- 
renzen oder andere Veranstaltungen, wo sie auf Datenquellen stoßen, die ihnen 
vorher unbekannt waren. Bei diesen und anderen Gelegenheiten führen sie Gesprä- 
che über Daten („data talk“), um auf dem Laufenden zu bleiben. Grundlegendes 
Wissen über relevante Studien und Datenquellen eignen sich Forschende bereits in 
der akademischen Ausbildung an. Für die empirische Sozial- und Wirtschaftsfor- 
schung werden beispielsweise kontinuierlich Mikrodaten aus seit Jahrzehnten lau- 
fenden Umfrageprogrammen wie der Allgemeinen Bevölkerungsumfrage der Sozial- 
wissenschaften“? oder des Sozio-ökonomischen Panels“* bereitgestellt, mit denen 
Studierende dieser Fachgebiete ihre Ausbildung durchlaufen. Daten wie diese wer- 
den gezielt für eine breite Nachnutzung erhoben, aufbereitet und zur Verfügung ge- 
stellt. Forschende, die mit diesen Daten arbeiten, müssen nicht erst danach suchen, 
sondern wissen um die Bestände und kennen die Zugangsmöglichkeiten. Mit wach- 
sender Erfahrung und Einbindung in Forschungscommunities lernen sie die Daten- 
landschaft immer besser kennen, was bei der Suche nach Daten ebenfalls hilfreich 
ist. Idealerweise sollten sich Forschende ein solides Wissen über Datenbestände in 
ihrem Fachgebiet aneignen, um schon bei der Entwicklung von Forschungsfragen 
einschätzen zu können, ob die zur Beantwortung dieser Fragen notwendigen Daten 
überhaupt vorhanden und zugänglich sind.” 

Neue Studien heben die besondere Bedeutung sozialer Kontakte bei der Suche 
nach Daten hervor.“ Der Einfluss dieser Kontakte ist dabei nicht auf das Auffinden 
von Daten beschränkt, sondern zeigt sich besonders im Hinblick auf die Problemlö- 
sungspraxis bei der Nachnutzung der Daten.“ Persönliche Kommunikation ist gän- 
gige Praxis in Suchprozessen, Lernprozessen und Problemlösungsprozessen für For- 
schende unterschiedlicher Disziplinen.“ 

Insbesondere fortgeschrittene Forschende durchsuchen außerdem gezielt und 
regelmäßig die Literatur ihres Fachgebiets, in der Regel bestimmte Zeitschriften, 
nach Hinweisen auf zur Nachnutzung geeignete Datensätze.” Die aktuelle For- 
schung legt nahe, dass Fachliteratur die wichtigste Quelle bei der Datensuche ist, 
unabhängig von der Disziplin.” Für diese Suche nach Daten über Literatur ist es 
hilfreich, wenn die Daten in den Texten unter Verwendung von persistenten Identi- 
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fiern (z.B. DOI) zitiert werden und dadurch leicht aufgefunden werden können.’! 
Generell profitieren Forschende bei der Suche nach Daten von einer allgemeinen 
Vertrautheit mit Forschungstrends und entsprechender Literatur.” 

Die Websuche spielt daneben eine immer größere Rolle für Personen, die auf 
der Suche nach Daten sind.” Vielen sind dagegen relevante Repositorien unbe- 
kannt.” Erfahrene Forschende nutzen zwar die vorhandenen Repositorien für die 
Suche nach Forschungsdaten, vor allem diejenigen, die in ihrer Disziplin als beson- 
ders wichtig gelten.” Angesichts der verteilten Datenlandschaft wünschen sie sich 
aber eine zentrale Suchmöglichkeit nach Daten.’® 

Die Bedeutung von Datenkatalogen und Repositorien für die Suche nach For- 
schungsdaten liegt weniger im Angebot eines Sucheinstiegs. Sie besteht vielmehr 
darin, dass dort die Forschungsdaten näher beschrieben werden, idealerweise im 
Kontext der Forschungsprojekte, in denen sie entstanden sind und mit Hinweisen 
zu relevanter Literatur oder weiteren Daten. Die Qualität der Datendokumentation 
spielt für die Datensuche eine entscheidende Rolle. Die Dokumentation muss inter- 
essierten Nutzenden ermöglichen, die im Datensatz enthaltenen Informationen zu 
verstehen.” Wichtig für die Relevanzbeurteilung ist außerdem, dass Kontextinfor- 
mationen mitgegeben werden.” Für Forschende aus den Sozialwissenschaften 
konnte gezeigt werden, dass das Lesen der Dokumentation und die Relevanzbeur- 
teilung wesentliche Schritte bei der Datensuche sind, auf die viel Zeit verwendet 
wird.” 

Die Interaktion mit Datenbanken und Suchmaschinen bei der Datensuche ist 
noch unzureichend erforscht. Bei der Entwicklung dieser Dienste wird von einer 
Schlagwort- oder Stichwortsuche ausgegangen, die auch durch Einbindung entspre- 
chender Terminologie unterstützt werden kann. Für spezifische Dienste gibt es dar- 
über hinaus nicht-textuelle Sucheingabemöglichkeiten, zum Beispiel das Zeichnen 
chemischer Strukturformeln über eine Eingabemaske. Häufig werden auch Filter- 
möglichkeiten zur Eingrenzung der Suchergebnisse angeboten.°' Die eingesetzten 
Terminologien und Technologien beruhen größtenteils auf Kenntnissen zum Infor- 
mationsverhalten bei der Literatursuche. Das Wissen darüber, wie inhaltliche Be- 
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schreibungen von Forschungsdaten aussehen miissen, damit Nutzende sie finden 
können, ist noch unzureichend.” 

Kathleen Gregory et al. (2018) geben hilfreiche Hinweise nicht nur fiir die Suche 
nach Datenquellen, sondern auch in den Datenbanken und Datenrepositorien 
selbst. Unter anderem weisen sie darauf hin, dass Repositorien hilfreiche erweiterte 
Suchfunktionen bieten, mit denen sich Suchende näher auseinandersetzen sollten 
(„Make the repository work for you“). Um erfolgreich zu suchen, sei ein strategi- 
sches Vorgehen hilfreich, zum Beispiel indem eine bewusste Entscheidung für ein 
disziplinspezifisches oder generisches Repositorium getroffen werde.°* Funktionali- 
täten, wie thematisches Browsing und Filtermöglichkeiten zu nutzen, wird ebenfalls 
als erfolgversprechend empfohlen.‘ Darüber hinaus gelte es bei der Suche nach Da- 
ten nicht nur die inhaltliche Passung zu beurteilen, sondern auch Kriterien wie 
räumliche und zeitliche Relevanz und Daten- sowie Metadatenqualität.‘® 


Infrastrukturperspektive: Dokumentation und Standardisierung 


Das Kernproblem der Auffindbarkeit von nachnutzbaren Daten besteht in der In- 
kongruenz zwischen verfügbaren Daten einerseits und den benötigten und auffind- 
baren Daten andererseits. Die Digitalisierung hat die vielzitierte Datenflut („data 
deluge“®) ausgelöst, die unendlich viele Nutzungsmöglichkeiten verspricht. In Ge- 
stalt von Big Data entstehen aus digitalen Prozessen und digitalem Verhalten per- 
manent neue Daten, auf deren Erhebung Forschende keinen Einfluss nehmen kön- 
nen. Auch die durch die Open-Government-Bewegung immer umfangreicher zur 
Verfügung stehenden offenen Verwaltungsdaten tragen zum aktuellen Datenreich- 
tum bei. 

Die alleinige Masse an vorhandenen Daten bedeutet allerdings nicht, dass ge- 
nügend Daten zu allen Fragestellungen zur Verfügung stehen. Gerade in Bezug auf 
Big Data und offene Verwaltungsdaten, die in der Regel ohne forschungstheoreti- 
sche Einordnung entstehen, bewegen sich Datensuchende in einem Bereich „dunk- 
ler Materie“,°° wenn die Daten nicht mit geeigneten Mitteln auffindbar gemacht 
werden. Die Notwendigkeit spezifischen Datenmanagements besteht aber auch für 
die Auffindbarkeit der im Rahmen geplanter Forschungsprojekte erhobener Daten 
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(„small data“’°). Diese weisen theoretische und ontologische Bezüge auf, die bereits 
in der Erhebung der Daten grundlegend angelegt sind. Dadurch sind diese Daten in 
ihren Analysemöglichkeiten aufgrund ihres Erhebungskontexts beschränkt. Wenn 
diese Daten auffindbar gemacht werden sollen, stellt sich die grundlegende Heraus- 
forderung, dass sie aus ihren Entstehungskontexten isoliert werden (das sog. Mobi- 
litätsproblem’”'). Der Kontext der Datenentstehung ist für die Interpretierbarkeit und 
Nachnutzbarkeit aber von elementarer Bedeutung.” 

Gut auffindbar sind Datensätze, wenn sie entsprechend dokumentiert sind, per- 
sistente Identifier nutzen, in verschiedenen Formaten vorliegen, in offen zugängli- 
chen Repositorien zur Verfügung stehen und nicht nur dort recherchiert werden 
können.” Beim Vorhaben, Daten auffindbar zu machen, müssen daher andere Vor- 
gehensweisen, Methoden und Instrumente zur Anwendung kommen, als etwa in 
Bezug auf Zeitschriftenartikel.”* Dabei kommt der standardisierten Dokumentation 
durch Datenzentren, -archive und -repositorien besondere Bedeutung zu.” Metada- 
tenstandards zur Dokumentation von Forschungsdaten müssen die besonderen Ei- 
genschaften des Informationsträgers berücksichtigen, die sich idealerweise aus den 
Informationsbedürfnissen der Nutzenden ableiten lassen. Während eine schlag- 
wort- oder volltextbasierte Indexierung bei Textdokumenten zufriedenstellende Er- 
gebnisse liefert, müssen für die Datensuche Relevanzkriterien jenseits thematischer 
Passung berücksichtigt werden: Aktualität, Zugangsmöglichkeiten, Versionierung, 
Datenqualität, Erhebungsmethoden, Provenienz und Untersuchungsbereich gehö- 
ren zu den disziplinunabhängig relevanten Kriterien bei der Datenauswahl.’® 

Über Disziplingrenzen hinweg unterscheiden sich Standards zur Datendoku- 
mentation teilweise stark. Zu unterschiedlich sind die Datenarten und Datenforma- 
te, die in den jeweiligen Disziplinen verwendet werden. Es ist daher bei der Doku- 
mentation und Archivierung von Daten gleichermaßen notwendig, die disziplinspe- 
zifischen Standards im eigenen Bereich zu beachten und auf übergeordneter Ebene 
Metastandards zu bedienen oder wo nötig zu entwickeln. Die disziplinspezifischen 
Standards sind vor allem für die Dokumentation und Bereitstellung der Daten in 
Fachrepositorien notwendig. Beispielsweise sollten sozialwissenschaftliche Umfra- 
gedaten unter Anwendung gängiger Standards der Data Documentation Initiative 
(DDI)” repräsentiert werden. Textdaten in Infrastrukturumgebungen für die Geistes- 
wissenschaften benötigen z.B. eine Repräsentation gemäß Text Encoding Initiative 
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(TEI).’® Auch für die Annotation zum Zweck der Inhaltsbeschreibung sollten Termi- 
nologien aus den jeweiligen Fachgebieten verwendet werden, für Experimentalda- 
ten aus der Biologie z.B. Gene Ontology (GO)’? oder für diverse Daten aus den Geo- 
wissenschaften z.B. der GeoRef Thesaurus. Im Hinblick auf Auffindbarkeit in an- 
deren disziplinären Kontexten ist die Verwendung von Vokabularen aus der Linked 
Open Data Cloud (LOD cloud)?! sinnvoll, denn hier bestehen Verknüpfungen zwi- 
schen Terminologien unterschiedlicher Fachgebiete. 

Da die Websuche nach Daten an Bedeutung gewinnt, genügt es nicht, die Daten 
nur für die Auffindbarkeit in Repositorien aufzubereiten. Damit sie von Suchmaschi- 
nen wie Google als Forschungsdaten indexiert werden können, ist der Einsatz von 
disziplinübergreifenden Standards wie schema.org-Vokabularen,® W3C Semantic- 
Web-Standards® und Sitemaps®“* notwendig.°° Für offene Verwaltungsdaten ist ins- 
besondere der W3C-Standard DCAT®® von Bedeutung (z.B. auch Grundlage des Me- 
tadatenmodells OGD?’ von GovData). 

Da aktuelle Erkenntnisse darauf hinweisen, dass neben Dokumentationsquali- 
tät auch forschungsdatenbezogene Literatur und Forschungsdatencommunities für 
Nutzende eine wichtige Rolle beim Auffinden von Forschungsdaten spielen, sollte 
die Auffindbarkeit auch in diesen Kontexten unterstützt werden. Zum einen sollten 
Initiativen zur Verknüpfung von Literatur mit Datensätzen (z.B. Scholix®®) weiter 
vorangetrieben werden. Auch Dienste wie der Clarivate Data Citation Index kommen 
diesem spezifischen Suchverhalten der Datennutzenden entgegen. Zum anderen 
sollte der Austausch über Daten innerhalb der Forschungsdatencommunities wo 
möglich unterstützt werden, z.B. durch datenorientierte Workshops bei relevanten 
Konferenzen und perspektivisch über die fachlichen NFDI-Konsortien.°? 
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2 Nutzbarkeit 


Häufig wird in der Literatur die „primäre“ Nutzung von Forschungsdaten durch die 
erhebenden Wissenschaftlerinnen und Wissenschaftler von einer als „sekundär“ be- 
zeichneten Nachnutzung unterschieden. Bei genauerer Betrachtung erweist sich 
eine eindeutige definitorische Abgrenzung der beiden Nutzungsarten als durchaus 
komplex, wenn nicht sogar unméglich.”° So stellen van de Sandt et al. fest, dass 
weder der Charakter der Daten, noch die Nutzenden, der Nutzungszweck oder der 
Zeitpunkt ein zuverlässiger Indikator für die Unterscheidung von Nutzung und 
Nachnutzung sind.’ 

Trotz dieser Einschränkungen wird im Folgenden der Fokus primär auf der 
Nachnutzung von Forschungsdaten liegen, verstanden als eine Nutzung von Daten, 
die für einen bestimmten Zweck erhoben wurden, konkret zur Beantwortung von 
Forschungsfragen jenseits des ursprünglichen (Forschungs-)Zwecks.” Dies schließt 
die Nutzung von Daten ein, die nicht primär zum Zweck der Forschung erhoben 
wurden, wie beispielsweise digitale Verhaltensdaten oder Daten der amtlichen Sta- 
tistik. Von der Nachnutzung im Sinne der gegebenen Definition ist die Nutzung von 
Forschungsdaten zum Zweck der (direkten) Replikation zu unterscheiden, die dem 
„Nachweis der Replizierbarkeit eines bestimmten Forschungsergebnisses unter un- 
abhängigen Bedingungen“ dient.” Auch diese Art der Nutzung von Forschungsda- 
ten wird im Folgenden betrachtet werden, wo relevant. 

Ob Forschungsdaten außerhalb des originären Projektkontexts genutzt werden 
können, hängt von einer Reihe von Faktoren ab, die der technischen, der ethisch- 
rechtlichen sowie der Dimension der intellektuellen Zugänglichkeit zugeordnet wer- 
den können. Diese werden im Folgenden näher beleuchtet, bevor Vertrauen der For- 
schenden in die genutzten Daten als ein weiterer wichtiger, nutzungsentscheiden- 
der Faktor betrachtet wird. 


2.1 Dimensionen der Nutzbarkeit 


In der technischen Dimension hängt die Nutzbarkeit von Forschungsdaten wesent- 
lich von der Verfügbarkeit geeigneter Hard- und Softwareumgebungen ab. Einer- 
seits kann die Form der Speicherung und Bereitstellung der Daten ihre Nutzbarkeit 
beeinflussen. Müssen Daten beispielsweise zunächst von einem Bandspeicher abge- 


90 Vgl. Pasquetto, Randles und Borgman 2017, 3-4; van de Sandt et al. 2019, 6-13. 

91 Vgl. Sandt et al. 2019, 13. 

92 Vgl. Thanos 2017, 1; Zimmerman 2008, 633-34. 

93 Erdfelder und Ulrich 2018, 3. Vergleiche in diesem Zusammenhang auch die Unterscheidung 
von „computational reproducibility“, „replicability“ und „generalizability“ in National Academies 
of Sciences, Engineering, and Medicine 2019, 1. 
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rufen werden, oder werden mit mangelnder Bandbreite tibermittelt, kann dies ins- 
besondere bei großen Datenmengen die Verfügbarkeit und damit die Nutzbarkeit er- 
heblich einschränken. Andererseits spielen auf der Ebene der Forschungsdateien 
die Formate, in denen diese vorliegen, eine wesentliche Rolle bei der Ermöglichung 
der Nachnutzung. 

Die Verbreitung eines Dateiformats und der zugehörigen verarbeitenden Soft- 
ware in der Gruppe der (potenziellen) Nutzenden bestimmt wesentlich, ob die Datei- 
en genutzt werden können. Während im primären Projektkontext in der Regel die 
(fach-)spezifischen Projektbedarfe darüber bestimmen, welche Dateiformate genutzt 
werden, sollten so früh wie möglich Überlegungen zu geeigneten Formaten für eine 
spätere Nutzung der Daten angestellt werden - idealerweise schon durch die Pri- 
märforschenden im Rahmen der Datenmanagementplanung.?* Im Zentrum dieser 
Überlegungen müssen die zukünftigen Nutzungen stehen, die ermöglicht werden 
sollen. So macht es bei der Wahl eines geeigneten Formats zum Beispiel einen Un- 
terschied, ob der Inhalt einer Datei nur zum Lesen auf einem Bildschirm bestimmt 
ist, oder ob es möglich sein muss, die in der Datei gespeicherten Informationen zu 
editieren oder sie anderweitig maschinell weiterzuverarbeiten.”° 

Je größer der Personenkreis ist, für den die Forschungsdaten nutzbar sein sol- 
len, desto wichtiger ist es, auf weit verbreitete und gut zugängliche Dateiformate zu 
setzen — gerade, wenn eine Nutzung über Disziplingrenzen hinweg möglich sein 
soll. 

Um die Nutzbarkeit langfristig zu erhalten, sollte zudem auf möglichst offene 
Dateiformate zurückgegriffen werden. Offene Formate sind solche, deren Spezifika- 
tionen im Gegensatz zu geschlossenen, proprietären Formaten komplett offen lie- 
gen. Hiermit wird es möglich, Software zum Ausführen der Dateien zu entwickeln, 
ohne dass Einschränkungen durch Eigentumsrechte kommerzieller Hersteller be- 
stehen, die die Nutzbarkeit von Forschungsdaten einschränken oder gar unmöglich 
machen können, sollte die kommerzielle Software vom Markt genommen werden.” 

Nicht immer lassen sich die genannten Aspekte - Offenheit und Verbreitung - 
vereinbaren. Häufig handelt es sich bei weit verbreiteten Formaten um proprietäre. 
In der Umfrageforschung sind etwa die proprietären Statistikprogramme SPSS” und 
Stata” — und damit auch mit ihnen assoziierte Dateiformate — weit verbreitet und 
stellen somit einen de facto-Standard dar. Dennoch ist die fehlende Offenheit ein 
wesentliches Risiko für den Erhalt der langfristigen Nutzbarkeit und es sollten früh- 
zeitig — idealerweise schon vor der Erhebung der Daten - Überlegungen dazu ange- 


94 S. Beitrag von Dierkes, Kap. 4.1 in diesem Praxishandbuch. 

95 Vgl. hierzu beispielhaft DARIAH-DE 2017. 

96 Vgl. Dietrich et al. n.d. 

97 S. https://www.ibm.com/de-de/analytics/spss-statistics-software. 
98 S. https://www.stata.com. 
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stellt werden, wie dieses Risiko minimiert werden kann. Dies kann beispielsweise 
durch eine Transformation in ein offenes Archivierungsformat erfolgen, welches bei 
Bedarf, z. B. mithilfe von entsprechenden Syntaxen oder Code, wieder in ein verbrei- 
tetes Nutzungsformat überführt werden kann.” 

Eine besondere Herausforderung stellt der technische Wandel auch für die Re- 
plikation von Forschungsergebnissen dar, die auf einer maschinellen Verarbeitung, 
insbesondere einer softwaregestützten Analyse, beruhen. So kann es sein, dass ver- 
schiedene Versionen ein und derselben Software unterschiedlich „rechnen“ und so- 
mit unterschiedliche Ergebnisse auf der gleichen Datengrundlage erzielen - etwa, 
weil Werte anders gerundet werden. Ershova und Schneider (2018) sowie Kim, Poli- 
ne und Dumas (2018) weisen in diesem Zusammenhang auf die Bedeutung sorsgfälti- 
ger Dokumentation der in den Analysen verwendeten technischen Systeme hin. 

Neben technischen Hürden können auch ethische! und rechtliche! Anforde- 
rungen die Nachnutzung von Forschungsdaten erschweren oder unmöglich ma- 
chen. Einschränkungen der Nutzbarkeit ergeben sich beispielsweise aufgrund von 
Eigentumsrechten (Urheberrecht, Patentrecht, etc.) oder sind notwendig, um den 
Schutz sensitiver Informationen zu gewährleisten. Entsprechend treffen Forschende 
Nutzungsentscheidungen unter Berücksichtigung der generellen Zugänglichkeit 
und Lizenzierung der Daten.!” 

Aus urheberrechtlicher Perspektive sind schutzfähige Forschungsdaten!” in der 
Regel nur dann nachnutzbar, wenn die Personen, die die Verwertungsrechte inne- 
haben, einer Nutzung durch Dritte zugestimmt haben. Eine solche Zustimmung 
kann an bestimmte Bedingungen geknüpft sein, die beispielsweise in einem Lizenz- 
text oder einem Nutzungsvertrag festgeschrieben werden. Je restriktiver diese Nut- 
zungsbedingungen im Hinblick auf den Nutzungszweck oder die Veränderung und 
Weitergabe der Forschungsdaten sind, desto stärker kann die Nutzbarkeit der Daten 
eingeschränkt sein. 

Ein weit verbreitetes Lizenzmodell, das auch für Forschungsdaten häufig An- 
wendung findet, ist das der Creative Commons-Lizenzen.'™ Ein Vorteil dieser Lizen- 
zen ist, dass sie aufgrund der Verbreitung bei Forschenden einen recht hohen Be- 
kanntheitsgrad haben. Zu beachten ist jedoch, dass Creative-Commons-Lizenzen 
nicht für alle Datentypen geeignet sind (z.B. Daten mit Personenbezug, siehe un- 
ten). 


99 Ob dies - insbesondere verlustfrei - möglich ist, hängt selbstverständlich von den spezifischen 
Formaten ab. 

100 S. Beitrag von Rösch, Kap. 1.5 in diesem Praxishandbuch. 

101 S. Beitrag von Lauber-Rönsberg, Kap. 1.4 in diesem Praxishandbuch. 

102 Vgl. Wu et al. 2019, 5. 

103 Zur Frage der Schutzfähigkeit von Forschungsdaten s. Beitrag von Lauber-Rönsberg, Kap. 1.4 
in diesem Praxishandbuch. 

104 S. https://creativecommons.org. 
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Bei der Nutzung von Creative Commons (CC) und anderen Lizenzen ist zu be- 
achten, dass durch die Vergabe einer zu restriktiven Lizenz die Nachnutzung erheb- 
lich eingeschrankt werden kann. Dies kommt unter anderem dann zum Tragen, 
wenn Quellen, die unter unterschiedlichen Lizenzen stehen, integriert werden sol- 
len. Hier kann das sogenannte License Stacking dazu führen, dass eine Veröffentli- 
chung des integrierten Produkts überhaupt nicht oder nur unter der restriktivsten 
Lizenz möglich ist.!°° Ein Datensatz, der unter einer CC Namensnennung-Share-Ali- 
ke-Lizenz (CC-BY-SA) steht, kann zwar zum Zweck nicht-kommerzieller Forschung 
mit Daten, die unter der CC-Lizenz-Namensnennung-Nicht kommerziell (CC-BY-NC) 
integriert werden; der resultierende Datensatz kann aber nicht für die Nutzung 
durch Dritte lizenziert werden, da die beiden Ausgangs-Lizenzen sich ausschließen. 
Denn während CC-BY-SA eine kommerzielle Nutzung ausdrücklich erlaubt und un- 
tersagt, die Daten oder darauf aufbauende Produkte unter einer restriktiveren Li- 
zenz zu veröffentlichen, erlaubt die CC-BY-NC-Lizenz keinerlei kommerzielle Nut- 
zung der Daten oder auf ihnen aufbauender Produkte.!” 

Eine Einschränkung der Nachnutzbarkeit von Forschungsdaten aus rechtlichen 
oder ethischen Gründen kann notwendig sein, wenn diese Daten das Recht auf in- 
formationelle Selbstbestimmung der teilnehmenden Personen berühren und im Ein- 
klang mit dem Datenschutzrecht verarbeitet werden müssen. Auch das Vorkommen 
bedrohter Tier- oder Pflanzenarten kann eine sensitive Information darstellen, die 
durch geeignete Maßnahmen geschützt werden muss.!°8 Solche Maßnahmen kön- 
nen in einer Veränderung der Forschungsdaten dahingehend bestehen, dass die 
sensitive Information gelöscht, vergröbert oder anderweitig verfremdet wird (z.B. 
durch die Verwendung von Pseudonymen). Diese Veränderungen schränken die 
Nutzbarkeit der Forschungsdaten allerdings ein, da sie das Analysepotenzial teils 
erheblich mindern können. Alternativ kann zum Schutz von sensitiven Informatio- 
nen der Zugang zu den Daten restriktiver gestaltet werden, indem spezielle Nut- 
zungsverträge geschlossen werden und/oder die Daten nur in ganz bestimmten und 
besonders geschützten Umgebungen remote oder vor Ort zugänglich gemacht wer- 
den, etwa in einer so genannten Data Enclave oder in einem Secure Data Center, 
wie es etwa bei GESIS - Leibniz-Institut für Sozialwissenschaften angeboten 
wird. In solchen Einrichtungen wird der Zugang zu den Daten zugunsten des Fr- 
halts ihrer analytischen Nutzbarkeit bewusst erschwert. 

Die dritte Dimension, in welcher sich der Grad der Nutzbarkeit von Forschungs- 
daten entscheidet, ist die der intellektuellen Zugänglichkeit oder Verstehbarkeit. Ob 


105 Vgl. auch Creative Commons 2019a. 

106 Vgl. Mozilla Science Labs n.d. 

107 Vgl. Creative Commons 2019b. 

108 Vgl. z.B. Chapman und Grafton 2008, 3. 

109 S. https://www.gesis.org/angebot/daten-analysieren/secure-data-center-sdc. 
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Forschungsdaten zur Beantwortung neuer Forschungsfragen nutzbar sind, hängt 
wesentlich von der Möglichkeit ab, den Inhalt der Daten erfassen zu können. 

Forschungsdaten sind nicht „selbsterklärend“ und ihre wissenschaftliche Nut- 
zung ist in aller Regel ohne umfassende zusätzliche Informationen darüber, durch 
wen, warum (Erhebungszweck, Forschungsfrage) und wie (Forschungsdesign, Erhe- 
bungsmethode) die Daten erhoben und aufbereitet wurden, nicht möglich. Als ein- 
faches Beispiel können Temperaturwerte dienen, die nur dann verständlich sind, 
wenn unter anderem bekannt ist wann, wo, mit welchen Instrumenten und unter 
welchen Bedingungen sie gemessen wurden."° Welche Informationen für ein Ver- 
ständnis notwendig sind, ist einerseits in hohem Maße fach- bzw. datenspezifisch 
(vgl. Tab. 1 für Beispiele) und hängt andererseits vom jeweiligen Nutzungszweck 
ab: „a data set is intelligible only when its metadata relates to its intended use.“ 
So kann das Fehlen von bestimmten Kontextinformationen einige Nachnutzungen 
unmöglich machen, während andere Nutzungen hiervon völlig unberührt bleiben. 

Angesichts der teils rasanten Herausbildung neuer Forschungsmethoden und 
-praktiken und der zunehmenden Bedeutung von trans- und interdisziplinärer For- 
schung ist die Frage, welche Kontextinformationen für zukünftige Nutzungen von 
Forschungsdaten wohl notwendig sind, nicht mit Sicherheit - möglicherweise noch 
nicht einmal annähernd - zu beantworten. 

So gibt es in der Literatur Hinweise darauf, dass ein umfassendes Verständnis 
von Forschungsdaten für die Nachnutzung nur möglich ist, wenn die Nutzenden 
selbst Erfahrungen in der Erhebung und Aufbereitung entsprechender Daten haben. 
„While standards can be helpful, the results show that knowledge of the local con- 
text is critical to ecologists’ reuse of data.“!? Auch Pasquetto, Borgman und Wofford 
weisen darauf hin, dass insbesondere bei der Verwendung von Forschungsdaten 
zur Beantwortung neuer Forschungsfragen (als ,,integrative data reuse“ bezeichnet) 
ein Grad von Verständnis der Daten notwendig ist, der kaum über die reine Bereit- 
stellung von Kontextinformationen!” zu erreichen ist." Dies führt einerseits dazu, 
dass Forschende im Rahmen einer Nachnutzung mit den Primärforschenden koope- 
rieren. Zum anderen konnte gezeigt werden, dass Nutzende Kontakt zu den Daten- 
produzierenden (Primärforschenden) und anderen Personen in ihrer Forschungs- 
community suchen, wenn sie auf Probleme mit Datensätzen stoßen.!" 


110 Vgl. hierzu Abschnitt 4.3 in Pasquetto, Borgman und Wofford 2019. 

111 Thanos 2017, 10. 

112 Zimmerman 2008, 631. 

113 Hierbei kann es sich beispielsweise um Dokumentation der Datenerhebung und -aufbereitung 
in Form von Feldtagebüchern, Erhebungsinstrumenten, Methodenreports, Analysecode, oder Be- 
schreibung der Hard-/Software-Umgebung zur Datenerhebung und/oder -verarbeitung handeln. 
114 Vgl. Pasquetto, Borgman und Wofford 2019, Abschnitt 4.3. 

115 Vgl. Yoon 2017, 466-67; Gregory et al. 2019b, 428-29. 
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Diese Befunde machen deutlich, dass eine Nachnutzung von Forschungsdaten 
in neuen Forschungs- und Projektkontexten nur dann überhaupt möglich wird, 
wenn der originäre Forschungsprozess und die resultierenden Daten möglichst um- 
fassend beschrieben werden. Wie Zimmermann ausführt, kann die Abhängigkeit 
von implizitem Wissen durch die Verfügbarkeit und Nutzung von fachspezifischen 
Standards verringert werden." Dies können beispielsweise Standards sein, die bei 
der Erhebung von Forschungsdaten oder bei der Dokumentation des Erhebungspro- 
zesses Anwendung finden. 


Tab. 1: Beispiele für benötigte Kontextinformationen nach Domäne 


Domäne Beispiele für benötigte Kontextinformationen 


Archäologie „Site metadata: Site location and background, Excavator, 
Excavation type and techniques, Cultural sequence, period- 
ization, and affinities, Dating, Recovery metadata, Sam- 
pling, Context types.“ 


Ökologie „[D]escription of the methods used to obtain an observa- 
tion or to conduct an experiment, the location of an obser- 
vation or experiment, and attributes associated with an ob- 
served species, such as taxonomic information, physical 
characteristics, or natural history information.“18 


Qualitative Sozialforschung „Methods: Instrument (Abstract), Tool (Abstract), Settings, 
Data Collection Tool, Analysis Tool, Processing Tool, Data 
Collection Method, Analysis Method, Processing Method, 
Data Collection Instrument, Analysis Instrument, Process- 
ing Instrument, Data Collection Mode.“!1? 


2.2 Vertrauen 


Die Forschung zeigt, dass das Vertrauen der Nutzenden in die Forschungsdaten 
und die datenhaltende Institution wesentlich mit darüber bestimmt, ob Daten nach- 
genutzt werden. Hierbei wurden verschiedene Faktoren identifiziert, die darüber be- 
stimmen, ob Nutzende einer Information (z.B. einem Datensatz) vertrauen (vgl. 
Tab. 2). 


116 Vgl. Zimmermann 2008, 634-35. 

117 Atici et al. 2013, 678. 

118 Zimmerman 2008, 633. 

119 Hoyle und DDI Qualitative Data Working Group 2012, 5-6. 
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Tab. 2: Faktoren, die das Vertrauen Forschender in genutzte Daten beeinflussen 


Studie Faktoren (eigene Ubersetzung) 
Kelton, Fleischmann und Wallace Genauigkeit 
(2008, 367) Objektivitat 

Validitat 

Stabilitat 


Donaldson und Conway (2015, 2440) Authentizität 
Verlässlichkeit 


Faniel und Yakel (2017, 111) Identität der Datenproduzierenden 
Dokumentation, z.B. „completeness or thoroughness of re- 
cord, evidence of standardized or professional practice“120 
Begutachtete Publikationen über die Daten 
Hinweise auf frühere Nutzungen 
Reputation des Repositoriums 


Die in Tab. 2 aufgeführten Studien machen deutlich, dass die Entscheidung, ob For- 
schende Daten ausreichend vertrauen, um diese zu nutzen, wesentlich von (wahr- 
genommenen) Eigenschaften erstens der Daten und ihrer Dokumentation selbst, 
zweitens der Datenproduzierenden und drittens der datenhaltenden Institution ab- 
hängt. 

Bezüglich der Eigenschaften von Daten und deren Dokumentation, wie etwa Ge- 
nauigkeit, Validität, Verlässlichkeit oder Vollständigkeit, kommt den Primärfor- 
schenden, die die Daten erheben und aufbereiten, eine wesentliche Verantwortung 
zu. Denn viele dieser Eigenschaften leiten sich unmittelbar aus dem Erhebungspro- 
zess und dem nachfolgenden Umgang mit den Daten ab. Werden entsprechende 
(Kontext-)Informationen nicht bereits während des Forschungsprozesses zum 
Zweck der Dokumentation festgehalten, können sie nachträglich häufig nicht mehr 
rekonstruiert werden. Schon hier sollte möglichst eine Orientierung an domänen- 
spezifischen Standards und Best Practices erfolgen, etwa um eine Vollständigkeit 
der Dokumentation zu gewährleisten. 

Eine weitere Anreicherung der Daten mit für die Bewertung ihrer Vertrauens- 
würdigkeit relevanten Informationen kann Aufgabe der Infrastruktur sein, die die 
Daten langfristig sichert und zugänglich macht. So können beispielsweise die fort- 
laufende Verknüpfung mit auf Grundlage der Daten entstandenen Publikationen 
oder die Bereitstellung von Informationen wie ORCID!” der Primärforschenden da- 
bei helfen, für die Beurteilung der Vertrauenswürdigkeit der Daten durch die Nut- 
zenden relevante Informationen zugänglich zu machen. Auch eine weitere Aufberei- 
tung der von den Forschenden dokumentierten Kontextinformationen gemäß 


120 Faniel und Yakel 2017, 112. 
121 S. https://orcid.org. 
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Domänenstandards (z.B. DDI, MeSH,!” ADeX!”) kann Aufgabe der Informationsin- 
frastruktur sein, die die Daten langfristig sichert und zur Nutzung anbietet. 

Wie in Tab. 2 dargestellt, hat nach Faniel und Yakel auch die Reputation des 
Repositoriums eine Relevanz, wenn Forschende sich für oder gegen die Nutzung 
von Forschungsdaten entscheiden: „In our DIPIR research we [...] found that data 
reusers assess trust through repository functions — particularly data processing, me- 
tadata application, and data selection — and to a lesser extent repository actions, 
such as transparency.“ Vor diesem Hintergrund erscheint es umso wichtiger, dass 
Informationsinfrastrukturen tief in den jeweiligen Fachcommunities verankert sind 
und ihre Zielgruppe und ihre Bedürfnisse kennen.'” Nur so können sie gewährleis- 
ten, dass sie relevanter Entwicklungen und Veränderungen gewahr werden und 
ihre Services und Angebote entsprechend anpassen können. 


Fazit 


Was die Auffindbarkeit von Daten angeht, besteht eine gewisse Divergenz zwischen 
Angeboten zur Datensuche und dem tatsächlichen Suchverhalten. Die vorhandenen 
Repositorien und Portale bieten den Zugang zu den Daten und werden auch ge- 
nutzt; tatsächlich spielen aber die Datensuche über Literatur, das Kennenlernen 
von neuen Daten durch Kontakte in der Forschungscommunity und zunehmend 
auch die Websuche eine größere Rolle für Datennutzende. Diese Praktiken sollten 
bei der Weiterentwicklung der Forschungsdateninfrastruktur mitgedacht werden. 
Die Dokumentation spielt eine zentrale Rolle für die Auffindbarkeit von Daten. Die 
Nutzung der Dokumentation, insbesondere die Verwendung von (fachspezifischen) 
Terminologien im Suchprozess muss im Sinne einer nutzungsorientierten Weiterent- 
wicklung der Forschungsdatensuchdienste noch weiter erforscht werden. 

Wie gut und zu welchen Zwecken Forschungsdaten nutzbar sind, hängt von ei- 
ner Reihe von Faktoren in unterschiedlichen Dimensionen ab (Technik, Recht und 
Ethik, intellektuelle Zugänglichkeit). Sowohl die Primärforschenden bzw. Datenpro- 
duzierende als auch die Informationsinfrastrukturen, die die Daten archivieren und 
zugänglich machen, können dazu beitragen, die Nutzbarkeit von Forschungsdaten 
zu erhöhen. So sollten Forschende schon im Forschungsprozess als Teil des Daten- 
managements möglichst genau dokumentieren, wie und warum sie die Forschungs- 
daten erheben, aufbereiten und analysieren. Hilfestellung bieten Einrichtungen der 


122 Medical Subject Headings, s. https://www.nlm.nih.gov/mesh/meshhome.html. 

123 Archäologischer DateneXport-Standard, s. https://landesarchaeologen.de/kommissionen/ar- 
chaeologie-und-informationssysteme/projekte-8. 

124 Faniel und Yakel 2017, 110. 

125 Vgl. Faniel und Yakel 2017, 118. 
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Informationsinfrastruktur. Letzteren kommt zudem eine besondere Verantwortung 
bei der Anreicherung und Standardisierung vorhandener Kontextinformationen zu. 
Beides kann wesentlich dazu beitragen, die Interpretierbarkeit der Forschungsdaten 
zu ermöglichen und das Vertrauen der Nutzenden in die Daten zu unterstützen. 
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5.2 Data Retrieval 


Abstract: Die Erméglichung einer effektiven und effizienten Suche nach und in For- 
schungsdaten ist eine der wesentlichen Zielsetzungen des Forschungsdatenmanage- 
ments. Um Suchfunktionalitäten passend nutzen und bereitstellen zu können, sind 
verschiedene Aspekte des Data Retrieval relevant. Diese reichen vom Verständnis 
des einer Suche zugrundeliegenden Informationsbedarfs über Modelle zum inhalts- 
basierten Ranking von Datensätzen bis hin zu Frameworks und Beispielsystemen 
für die Suche. Der vorliegende Beitrag gibt hierzu einen Überblick und eine Einfüh- 
rung. 


1 Motivation 


Für das Forschungsdatenmanagement (FDM) sind die bereits in vorangegangenen 
Beiträgen! dargelegten FAIR-Prinzipien von großer Bedeutung.’ Ein wichtiger Teil- 
aspekt unter dem Schlagwort „Findable“ ist dabei „(Meta)data are registered or in- 
dexed in a searchable resource“. Es geht hier also um die Bereitstellung von Such- 
funktionalitäten, die es einer potenziellen Nutzerin bzw. einem potenziellen Nutzer 
ermöglicht, einen Forschungsdatensatz zu finden, von dem sie oder er zuvor in der 
Regel noch keine explizite Kenntnis hatte. Die Suche ist hier abzugrenzen vom di- 
rekten Zugriff auf einen Datensatz, der über eindeutige Identifikatoren wie einen Di- 
gital Object Identifier (DOI) erfolgen kann. 

Von der Begrifflichkeit her ist festzuhalten, dass sich Data Retrieval grundsätz- 
lich auf die Suche in (semi-)strukturierten Daten, und in diesem Kontext auf die Su- 
che nach Forschungsdaten bezieht. Ein erster und primärer Zugang ist die Suche 
über entsprechend gepflegte Metadaten zu den einzelnen Forschungsdaten. Neben 
sehr allgemeinen Metadatenschemata existieren fachspezifische Schemata, die spe- 
zifische Charakteristika von Forschungsobjekten für das jeweilige Fach einbeziehen. 
In Abhängigkeit von dem konkret verwendeten Schema umfassen Metadaten typi- 
scherweise technische Daten wie das Format, inhaltsbeschreibende Daten wie den 
Titel oder eine Kurzbeschreibung, Informationen zu Zugriffsrechten, Identifikato- 
ren, das Jahr und den Ort der Publikation und vieles mehr. Auch Schlagwörter und 
ggf. Referenzen auf Publikationen sind üblich. 


1 S. z.B. Beitrag von Linne et al., Kap. 3.2 in diesem Praxishandbuch. 
2 Vgl. Wilkinson 2016. 


3 Open Access. © 2021 Andreas Henrich, Robin Jegan und Tobias Gradl, publiziert von De Gruyter. JMA] Dic- 
ses Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-024 
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Eine Suche auf Basis der Metadaten kann sehr unterschiedlich erfolgen. Eine 
Stichwortsuche im Titel und der Beschreibung bildet einen tiblichen Weg. Dies 
kann durch Filterbedingungen z.B. zum Jahr der Publikation oder zu anderen Fel- 
dern ergänzt werden. Während die inhaltsbasierte Suche in beschreibenden Texten 
neben klassischen Verfahren des booleschen Retrieval auch Techniken aus dem 
Kontext von (Web-)Suchmaschinen nutzen kann, können einfache Attribute, wie 
das Jahr der Publikation, als Filterbedingungen zur Eingrenzung der Ergebnisse die- 
nen. 

Neben einer Suche über die Metadaten ist bei Forschungsdaten, die z.B. um- 
fangreiche Text- oder Bildteile umfassen, auch eine Suche auf den Inhalten selbst 
denkbar. Dazu können Verfahren der Textsuche, wie sie im vierten Kapitel dieses 
Beitrags beschrieben werden, eingesetzt werden, um so die Möglichkeiten des Data 
Retrieval zu ergänzen. Für andere Medientypen wie etwa Bilder, Videos oder Audio- 
dateien ist man auf entsprechende spezialisierte Verfahren angewiesen.’ In diesem 
Beitrag wird primär auf die Suche über Metadaten eingegangen. 

Der Beitrag gliedert sich wie folgt: Zunächst werden wir zum besseren Verständ- 
nis der Suche unterschiedliche Arten von Suchsituationen darlegen und die Suche 
als oft iterativen Prozess beschreiben. Im Anschluss wird eine tiefere Betrachtung 
zum Charakter der Metadaten in Relation zu den Forschungsdaten selbst gegeben. 
Da zur Implementierung von Suchlösungen Techniken aus dem Information Retrie- 
val angewendet werden, folgt eine Betrachtung exemplarischer Modelle des Infor- 
mation Retrieval, wobei wir auch die Besonderheiten bei der Verarbeitung anderer 
Medientypen skizzieren. Darauf aufbauend betrachten wir die Umsetzung von Such- 
systemen, mögliche Architekturen für Suchlösungen und Beispiele für zugrundelie- 
gende Softwaresysteme sowie exemplarische Systemumsetzungen. Eine Zusammen- 
fassung rundet den Beitrag ab. 


2 Arten von Suchsituationen und der Suchprozess 


Sowohl die Suche nach als auch die Nutzung von Informationen sind Teile eines 
Prozesses, der insbesondere in der digitalen Welt von fundamentaler Bedeutung ist. 
Jedoch unterscheiden sich Situationen und Kontexte der Suche auf mehreren Ebe- 
nen. 

Eine Unterscheidung kann im Typ der Anfrage oder in der Art des Informations- 
bedarfs gesehen werden.” So kann ein konkreter Informationsbedarf vorliegen, in 
dem nach Fakten bzw. mit klar abgesteckten thematischen Grenzen gesucht wird, 


3 Vgl. die Ausführungen in Abschnitt 4.5 in diesem Beitrag sowie z.B. Raieli 2016, 9-42 oder Pon- 
celeön 2012, 587-639. 
4 Vgl. Frants 1997, 34-40. 
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beispielsweise nach der Einwohnerzahl einer bestimmten Stadt. Diese Anfrage kann 
gewöhnlich mit einer einzelnen Fakteninformation beantwortet werden und ebenso 
kann mit präzisen Anfragen danach gesucht werden. Weiterhin ist dieser konkrete 
Informationsbedarf nach der Übermittlung der erforderlichen Fakten befriedigt. 

Ein zweiter Typ kann als problemorientierter Informationsbedarf charakterisiert 
werden. Hier kann die Suchanfrage nicht durch eine einzelne Fakteninformation 
vollständig beantwortet werden. Stattdessen ist meist die Analyse mehrerer durch 
die Suche zurückgegebener Datensätze notwendig, um die Anfrage beantworten zu 
können. Außerdem werden die thematischen Grenzen hier nicht klar gesetzt, wes- 
wegen auch die Suchanfrage durch mehrere und unterschiedliche Suchterme ausge- 
drückt werden kann. Die Rückgabe der Suchergebnisse und deren Betrachtung 
durch die Nutzerin bzw. den Nutzer kann zu einer Modifizierung der Suchanfrage 
führen, falls der Informationsbedarf noch nicht gedeckt wurde. 

Eine weitere Differenzierung hinsichtlich der Suche wurde von Marchionini 
durch die Aufteilung in Lookup, Learn und Investigate getroffen.” Die Suche im Sin- 
ne eines Lookup ist am stärksten mit dem oben beschriebenen konkreten Informati- 
onsbedarf zu vergleichen. Hier steht die Suche nach Fakten im Vordergrund, die 
mithilfe eines einzelnen konkreten Suchergebnisses für die Anfrage abgeschlossen 
werden kann. Interessanter ist die Abgrenzung zu Learn und Investigate, die Eigen- 
schaften des problemorientierten Informationsbedarfs aufweisen, und deren Unter- 
schiede. Die Suche im Sinne von Learn umfasst mehrere Suchanfragen, welche ver- 
glichen mit Lookup ausführlichere Antworten liefen und außerdem meist eine Inter- 
pretation oder weitere Analyse erfordern. Das Ziel dieser Suche ist ein tieferes 
Verständnis zu der gewünschten Anfrage, welche durch das Verarbeiten und Ver- 
gleichen der Suchergebnisse herausgearbeitet werden kann. Investigate umfasst 
ebenso wie Learn die Analyse von mehreren Suchanfragen, auf die jedoch eine 
noch ausführlichere Interpretation und Evaluation folgt. Diese tiefe Analyse erfor- 
dert allerdings bereits existierendes Fachwissen, um Vergleiche und Bewertungen 
für die Suchergebnisse durchführen zu können. 

Sowohl Learn als auch Investigate können in eine gemeinsame Kategorie der 
Exploratory Search eingegliedert werden.° Durch die umfangreiche Beteiligung der 
Nutzerin bzw. des Nutzers, durch zahlreiche Anfragen sowie durch die nötige manu- 
elle Evaluierung der Ergebnisse liegt der Fokus in beiden Sucharten auf einer länger 
andauernden Untersuchung der Suchergebnisse. Natürlich kann intuitiv argumen- 
tiert werden, dass Suchen im Zusammenhang mit Forschungsdaten primär der Kate- 
gorie der Exploratory Search zuzuordnen sind, weil es um die Suche nach potenziell 
relevanten Forschungsdaten für eine bestimmte Forschungsfrage geht. Es ist aber in 
Analogie zu fast allen Suchlösungen davon auszugehen, dass in vielen Fällen die 


5 Vgl. Marchionini 2006, 42-43. 
6 Vgl. Marchionini 2006, 43-44. 


430 —— Andreas Henrich, Robin Jegan und Tobias Gradl 


Suchenden bereits recht genau wissen, wonach sie suchen. Die Suchform Lookup 
sollte daher bei der Konzeption einer Suchlösung für Forschungsdaten mit bedacht 
werden, weil die Nutzerin bzw. der Nutzer hier in der Regel davon ausgeht, dass 
lediglich eine Suchanfrage gestellt werden muss, die unmittelbar zur Rückgabe der 
relevanten Information führt. Während bei einer explorativen Suche eine iterative 
Verfeinerung der Anfrage akzeptiert wird, ist dies beim Lookup keineswegs der Fall. 

Insbesondere der explorative Suchprozess besteht aus einer Reihe von Aktivitä- 
ten, die iterativ ausgeführt werden und aufeinander aufbauen.’ Zu Beginn der Suche 
muss ein Bedarf nach einer bestimmten Information erkannt werden (recognize), wor- 
aufhin der zweite Schritt erfolgt, nämlich, dass akzeptiert wird, dem Bedarf nach In- 
formation nachzugehen (accept). Anschließend wird das Problem formuliert (formu- 
late). Es wird identifiziert, welche Information den Bedarf decken kann und welche 
Quellen herangezogen werden können. Mithilfe der Suchanfrage soll daraufhin aus- 
gedrückt werden, wie die Suchlösung den Informationsbedarf decken soll (express). 
Durch die Suchlösung gelieferte Ergebnisse werden im Anschluss geprüft (examine), 
möglicherweise auch mehrmals. Da in diesem Prozess nicht immer sofort die passen- 
den Treffer gefunden werden können, folgt oft eine Umformulierung der Anfrage (re- 
formulate). Das positive Ende des Suchprozesses ist erreicht, sobald die Nutzerin bzw. 
der Nutzer die Suche beendet und die erhaltenen Informationen verwendet (use). 

Der Aufwand, der von Seiten der Nutzerin bzw. des Nutzers einerseits und der 
Suchlösung andererseits aufgewendet werden muss, ist je nach Aktivität im Such- 
prozess unterschiedlich verteilt. So liegt ein großer Teil des Aufwandes zur Formu- 
lierung des Problems und zur Prüfung der Ergebnisse bei der Nutzerin bzw. dem 
Nutzer. Im Gegensatz dazu kann die Suchlösung insbesondere bei den Aktivitäten 
Hilfe bieten, welche sich mit dem Formulieren der Suchanfrage und deren Verfeine- 
rung beschäftigen. Für das Formulieren der Suchanfrage sind Hilfestellungen wie 
die Autovervollständigung, eine Rechtschreibprüfung oder vorgeschlagene Suchbe- 
griffe zu nennen und für die Umformulierung etwa die Ergänzung vorheriger Such- 
anfragen, um die Rangliste der Ergebnisse zu verbessern. 

Anfragen können aber nicht nur in textueller Form gestellt werden, sondern 
auch durch andere, an einen bestimmten Anwendungszweck angepasste Suchpara- 
meter. Ein Beispiel ist die Suche über chemische Strukturen, etwa in der Crystallo- 
graphy Open Database (COD)®, in der mittels zweidimensionaler Skizzen Kristall- 
strukturen aus wissenschaftlichen Veröffentlichungen durchsucht werden können. 
Dazu kann man in einem kleinen, speziellen Editor Strukturen oder Fragmente von 
Strukturen als Anfrage skizzieren. Die Möglichkeiten der COD sind damit ein Bei- 
spiel für die Anfrageformen Query by Sketch oder Query by Example. 


7 Vgl. Marchionini 2007, 207-228. 
8 S. http://www.crystallography.net/cod/jsme_search.html. Letztes Abrufdatum der Internet-Doku- 
mente ist der 15.11.2020. 
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In der Darstellung der Ergebnisse kann eine Suchlösung durch passende Ergeb- 
nisbeschreibungen eine erste Hilfestellung zur unmittelbaren Relevanzbeurteilung 
geben. Eine Suchlösung muss dabei der Heterogenität der Informationsbediirfnisse 
ebenso Rechnung tragen wie dem oft iterativen Suchprozess, in dem die Nutzerin 
bzw. der Nutzer entsprechende Unterstiitzung und Orientierung erwartet. Weiterhin 
muss bei Daten, die auf unterschiedlichen Ebenen organisiert sind — etwa For- 
schungsdaten die nicht nur als einzelner Datensatz vorliegen, sondern auch als Teil 
von Sammlungen - der variable Aggregationsgrad beachtet und in den Suchergeb- 
nissen entsprechend präsentiert werden. 


3 Metadaten vs. Forschungsdaten 


Data Retrieval für Forschungsdaten setzt einen entsprechenden Bestand an For- 
schungsdatensätzen voraus. Die Suche in diesem Bestand soll als Ergebnis eine 
Menge oder ein Ranking relevanter Datensätze für die gegebene Anfrage erzeugen. 
Jedoch kann hier zwischen verschiedenen Typen von Daten unterschieden werden, 
die für die Suche ausgewertet werden können, nämlich den Metadaten und den For- 
schungsdaten selbst. 

Metadaten sind Daten über Daten, also zusätzlich zu den eigentlichen For- 
schungsdaten gespeicherte Informationen, die etwa den Titel, eine Beschreibung, 
den Verfasser oder das Erstelldatum des Dokuments umfassen.” Dabei können ver- 
schiedene Arten von Metadaten unterschieden werden: Deskriptive Metadaten be- 
schreiben inhaltliche Felder, wie etwa die Themen, welche in einem Dokument vor- 
kommen, oder formale Aspekte, wie die Anzahl der Wörter. Strukturelle Metadaten 
umfassen die Aufteilung eines Dokuments bzw. Forschungsdatenbestandes, das 
heißt in welchen Einheiten das Dokument aufgebaut ist, etwa Kapitel und Unterka- 
pitel oder Teilmengen. Administrative Metadaten beschreiben organisationsbezoge- 
ne Gegebenheiten wie die Lizenzen, welche die Forschungsdaten betreffen, oder 
auch die zugehörige Institution, die bei der Entstehung der Forschungsdaten mitge- 
wirkt hat. Zuletzt präsentieren technische Metadaten beispielsweise Details zum Da- 
teiformat und der Dateigröße. 

Die Definition und Beschreibung von Metadaten erfolgt insbesondere in kleine- 
ren Projekten und Sammlungen initial häufig nicht anhand von Standards. Stattdes- 
sen werden oft eigene Schemata entwickelt, welche die Anforderungen der vorlie- 
genden Domäne möglichst exakt widerspiegeln sollen. Aspekte der FAIR-Prinzipi- 
en - wie die langfristige Nachnutzbarkeit von Metadaten aus vielen Systemen - 


9 Vgl. Ferber 2003, 267-284. 
10 Vgl. Schöch 2017, 228-229. 
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werden allerdings erst durch die Verwendung von Standards ermöglicht, da diese 
eine übergreifende Interpretierbarkeit der Datenfelder gestatten. Die Dublin Core 
Metadata Initiative hat mit den fünfzehn Hauptelementen von Dublin Core einen 
frühen Metadatenstandard geschaffen,” welcher bis heute im Gebrauch ist. Eine 
Weiterentwicklung von Dublin Core - ebenso wie des im Bibliothekswesen ge- 
bräuchlichen MARC-Standards” - wurde mit dem Metadata Object Description 
Schema (MODS) geschaffen,” um zum einen Kompatibilität zu MARC zu gewährleis- 
ten und zum anderen den beschränkten Dublin Core Standard zu erweitern. 

Für das kulturelle Erbe im Allgemeinen ist das CIDOC Conceptual Reference Mo- 
del (CRM) relevant,” welches eine semantische Datenmodellierung ermöglicht, die 
dadurch die Erstellung von Ontologien gestattet. Die Auswahl verfügbarer Stan- 
dards ist dabei annähernd so divers, wie das disziplinäre Spektrum der Wissen- 
schaften selbst. Für einen Überblick über fachspezifische Standards und weiterfüh- 
rende Betrachtungen kann an dieser Stelle lediglich auf einschlägige Literatur ver- 
wiesen werden - für den Bereich des kulturellen Erbes beispielsweise auf Neuroth 
und Flanders.” 

Der Begriff der digitalen Daten umfasst in diesem Kontext neben den Metadaten 
auch die inhaltliche Ebene, also digitalisierte bzw. digital erstellte (born-digital) Ar- 
tefakte. Forschungsdaten sind als Begriff für die Gesamtheit an Daten aufzufassen, 
welche einen Datensatz ausmachen, das heißt Inhalte ebenso wie andere Formate 
von Daten und zugehörige Metadaten.'° Ein Beispiel für ein in dieser Hinsicht über- 
greifendes Format wird von der Text Encoding Initiative (TEI) betreut und weiter- 
entwickelt. Das gleichnamige Dokumentenformat ist ein Standard für Textdaten, 
-kodierung und -transfer und hat sich in den Geisteswissenschaften (u.a. Editions- 
wissenschaft, Linguistik) etabliert. Neben den encodierten, annotierten Inhalten 
bietet das TEI Format tiefe Möglichkeiten zur Beschreibung von Metadaten. 

Standardisierte Formate nicht nur von Metadaten, sondern auch von For- 
schungsdaten allgemein und den Schnittstellen, über die diese abgerufen werden 
können, erlauben den Austausch durch Institutionen und Wissenschaftlerinnen 
bzw. Wissenschaftler. An dieser Stelle bleibt festzuhalten, dass Suchlösungen für 
Forschungsdaten verschiedene Standards zu Metadaten unterstützen und nach 
Möglichkeit auch Werkzeuge zur Integration bereitstellen sollten. 


11 S. https://www.dublincore.org/specifications/dublin-core/dces. 

12 S. https://www.loc.gov/marc. 

13 S. http://www.loc.gov/standards/mods. 

14 S. http://www.cidoc-crm.org Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
15 Vgl. Neuroth 2017, 213-22; Flanders 2015, 229-237. 

16 Forschungsdaten umfassen dabei zum Teil auch Referenzen auf sogenannte „Sekundärdaten“, 
die aus der Verarbeitung der Primärdaten etwa durch Interpretation oder Datenaggregation entste- 
hen können. Vgl. Rixen 2018. 

17 S. https://tei-c.org. 
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4 Modelle des Information Retrieval 


Die Aufgabe eines Suchsystems fiir Forschungsdaten ist es, primar zu einem Infor- 
mationsbedarf relevante Datensätze im Ergebnis für eine Suche zu präsentieren. 
Klassisch wurde dabei häufig eine Ergebnismenge berechnet. Dies ist allerdings in 
den letzten Jahrzehnten durch Rankings von relevanten Datensätzen bzw. Doku- 
menten abgelöst worden, weil der Nutzerin bzw. dem Nutzer so ein differenzierteres 
Bild präsentiert werden kann. In diesem Kapitel soll es nun um die Modelle gehen, 
die der Bestimmung einer Ergebnismenge bzw. eines Rankings zugrunde liegen. Im 
Forschungsgebiet des Information Retrieval (IR) ging und geht es unter anderem 
darum, (mathematische) Modelle für die Ermittlung relevanter Dokumente zu einer 
Anfrage zu definieren.'® Einige exemplarische Modelle werden wir im Weiteren be- 
schreiben, um dann in späteren Abschnitten auf die technische Umsetzung solcher 
Modelle einzugehen. Die Modelle des IR gehen überwiegend von Situationen aus, in 
denen mit einer entsprechenden Anfrage in einer Kollektion von Dokumenten - 
bzw. Datensätzen - gesucht wird, die in der Regel durch einen Text repräsentiert 
werden.” In unserem Fall könnte es sich bei diesem Text z.B. um den Titel eines 
Forschungsdatensatzes oder einen kurzen Beschreibungstext aus den Metadaten zu 
diesem Datensatz handeln. 

Um die Modelle besser verstehen zu können, ist es wichtig, sich nochmals klar- 
zumachen, dass die Aufgabe eines Suchsystems in der Bereitstellung relevanter For- 
schungsdaten bzw. Informationen liegt. Die Qualität des Ergebnisses hat hier zwei 
Perspektiven: Zum einen sollte das Ergebnis möglichst viele relevante Forschungs- 
daten zum Informationsbedarf enthalten. Auf der anderen Seite ist es aber auch 
wichtig, dass das Ergebnis möglichst wenige irrelevante Datensätze enthält. Zur 
Einschätzung des ersten Aspekts verwendet man den Recall als Kennzahl. Dieser er- 
rechnet sich aus der Anzahl relevanter Datensätze im Ergebnis der Suchmaschine 
im Verhältnis zur Anzahl der insgesamt in der Kollektion enthaltenen relevanten 
Datensätze. Der Recall misst damit die Vollständigkeit des Ergebnisses. Dem steht 
als zweite Kennzahl die Precision gegenüber. Sie misst, wie gut es dem System ge- 
lingt, nicht relevante Datensätze aus dem Ergebnis fernzuhalten. Die Precision er- 
rechnet sich aus der Anzahl relevanter Datensätze im Ergebnis im Verhältnis zur Ge- 
samtzahl der Datensätze im Ergebnis (relevante und irrelevante). 

Ziel eines Suchsystems muss es nun sein, einen geeigneten Kompromiss zwi- 
schen diesen Zielgrößen zu erzielen. Um zu messen, wie gut dieser Kompromiss ge- 


18 Vgl. Croft 2010, 1-12. 

19 Bei Bilddaten - als Beispiel für multimediale Daten - kann man einerseits versuchen durch eine 
(ggf. automatische) Analyse des Bildinhalts eine Verschlagwortung oder Klassifikation durchzufüh- 
ren und so den Inhalt des Bildes ebenfalls durch Text zu repräsentieren. Andererseits kann man 
aber auch Vergleiche auf den Bilddaten selbst durchführen. Vgl. die Ausführungen in Abschnitt 4.5 
in diesem Beitrag sowie z.B. Bullin 2020, 1-22. 
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lingt, wird bisweilen das sogenannte F-Maß eingesetzt, das dem harmonischen Mit- 
tel aus Recall (R) und Precision (P) entspricht: GP Durch die Verwendung des 
harmonischen Mittelwertes statt des arithmetischen Mittelwertes wird erreicht, dass 
das F-Maß niedrig ist, sobald eine der beiden Eingangsgrößen niedrig ist. 

Die skizzierten Maße können zum einen genutzt werden, um die Leistungsfähig- 
keit entsprechender IR-Modelle einzuschätzen. Zum anderen helfen sie auch bei der 
Charakterisierung von Anfragen. So gibt es Anfragen, für die ein hoher Recall wich- 
tig ist - z.B. bei der Recherche nach Forschungsarbeiten in einem Promotionsvorha- 
ben. Bei anderen Anfragen spielt der Recall eine geringere Rolle, weil man zur Be- 
antwortung der Anfrage nur ein oder zwei relevante Datensätze benötigt - wenn 


man z.B. nach dem Geburtsdatum einer Person sucht. 


4.1 Boolesches Retrieval 


Ein erstes einfaches Retrievalmodell findet sich im klassischen booleschen Retrie- 
val. Hier können zunächst Texte gesucht werden, die einzelne Anfragebegriffe ent- 
halten. Durch die Zusammensetzung von einzelnen Begriffen oder Anfrageteilen 
mithilfe boolescher Operatoren können Anfragen weiter ausspezifiziert werden. So 
sucht eine Anfrage „Novelle AND Mittelalter“ z.B. nach Datensätzen, die beide Be- 
griffe enthalten. Neben den üblichen booleschen Operatoren können zum Teil auch 
komplexere Operatoren wie NEAR[n] angewendet werden, wobei in diesem Fall die 
beiden Begriffe links und rechts des Operators in einem Wortfenster von maximal n 
Wörtern gemeinsam vorkommen müssen. Vorteile des booleschen Retrieval sind, 
dass die Ergebnisse vorhersehbar und relativ einfach zu erklären sind. Viele ver- 
schiedene Eigenschaften (wie z.B. auch das Publikationsdatum) können in einen 
Anfrageausdruck einbezogen werden. Nachteilig ist allerdings, dass die Fffektivität 
davon abhängt, ob es der Nutzerin bzw. dem Nutzer gelingt, einen passenden boole- 
schen Ausdruck zu formulieren. Hinzu kommt, dass das Modell eine nicht weiter 
strukturierte Ergebnismenge liefert, was insbesondere bei großen Ergebnismengen 
unmittelbar den Bedarf zur Verfeinerung der Anfrage nach sich zieht. 


4.2 Vektorraummodell 


Ein weiteres weit verbreitetes Retrievalmodell ist das Vektorraummodell. Die Anfra- 
gen werden hier, verglichen mit dem booleschen Retrieval, nicht mithilfe von Ope- 
ratoren erstellt, sondern können als Schlüsselwortanfragen gestellt werden. Sowohl 
die Forschungsdaten als auch die Anfragen werden als Vektoren dargestellt, wobei 
die Werte in den einzelnen Dimensionen der Vektoren die Bedeutung einzelner 
Wörter (Terme) für die jeweiligen Forschungsdaten bzw. die Anfrage repräsentieren. 
Die Anzahl der Dimensionen der Vektoren entspricht damit der Größe des Vokabu- 
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lars, das alle Begriffe enthalt, die in den betrachteten Dokumenten vorkommen. In 
dem so gebildeten Vektorraum kann mit einem entsprechenden Ähnlichkeitsmaß 
nach den zu einem Anfragevektor ähnlichsten Dokumentvektoren gesucht werden. 
Das Maß der Kosinus-Ähnlichkeit etwa drückt über den Kosinus des Winkels zwi- 
schen den Vektoren die Ähnlichkeit zwischen Anfrage und Dokument aus und er- 
möglicht dadurch ein Ranking der Forschungsdaten basierend auf der Anfrage. 

Für die Verbesserung der Ergebnisse können in diesen Modellen unterschiedli- 
che Ähnlichkeitsmaße und Verfahren zur Bestimmung der Termgewichtungen ein- 
gesetzt werden.?° Während bei den Ähnlichkeitsmaßen häufig die oben erwähnte 
Kosinus-Ähnlichkeit genutzt wird sind für die Termgewichtungen verschiedene For- 
meln nach dem sogenannten tf-idf-Muster im Einsatz. tf steht dabei für die Frequenz 
eines Terms in einem Dokument. Dem liegt die Annahme zugrunde, dass ein Term 
umso besser geeignet ist ein bestimmtes Dokument zu beschreiben, je häufiger er in 
diesem Dokument vorkommt. Allerdings ist auch zu berücksichtigen, dass das häu- 
fige Vorkommen eines Terms in einem Dokument nur dann bedeutsam für dieses 
Dokument selbst ist, wenn der Term nicht auch in anderen Dokumenten relativ häu- 
fig vorkommt. Dieser Tatsache wird durch die idf-Komponente Rechnung getragen, 
die als inverse Dokumentfrequenz (idf) umso höher ist, je seltener der Begriff im ge- 
samten Korpus vorkommt. Durch tf-idf-Formeln werden also Terme hoch gewichtet, 
die im betreffenden Dokument häufig, im gesamten Korpus dagegen eher selten 
sind. Die für Indexierung und Suchanwendungen bekannte Bibliothek Lucene er- 
möglicht sowohl das oben erwähnte boolesche Retrieval als auch das Vektorraum- 
modell für das Bewerten von Dokumenten.” Beginnend mit der Version 6.0 von 
Lucene wurde 2016 aber das bisher als Standardscoring verwendete tf-idf-Modell 
durch ein anderes Modell ersetzt, nämlich BM25, welches im folgenden Kapitel nä- 
her beleuchtet wird.” 


4.3 Probabilistisch motivierte Modelle 


Während das Vektorraummodell weitgehend pragmatisch motiviert ist, gab es im IR 
immer auch die Bestrebung, probabilistisch fundierte Modelle für das Ranking von 
Dokumenten zu entwickeln. Ein wichtiger Meilenstein in diesem Zusammenhang 
war das BIR-Modell.” BIR steht für Binary Independence Retrieval und macht ver- 
schiedene Annahmen deutlich. Eine erste wesentliche Annahme ist, dass das Vor- 


20 Vgl. Manning 2008, 289-292. 

21 S. https://lucene.apache.org/core/8_4_1/core/org/apache/lucene/search/similarities/TFIDFSi- 
milarity.html. 

22 S. https://lucene.apache.org/core/6_0_O/changes/Changes.html. 

23 Vgl. Robertson 1976, 129-146. 
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kommen eines Wortes in einem Dokument eine binäre, nicht weiter gewichtete Ei- 
genschaft darstellt. Das bedeutet, es geht nur darum, ob ein Wort in einem Doku- 
ment vorkommt, und nicht z.B. darum, wie oft es in diesem Dokument vorkommt. 
Ein zweiter wichtiger Punkt ist die Unabhängigkeitsannahme (Independence). Diese 
Annahme liegt dabei auch dem Vektorraummodell zugrunde, in dem die einzelnen 
Dimensionen des Vektorraumes repräsentieren, wie gut ein bestimmtes Wort geeig- 
net ist, um ein Dokument - bzw. einen Datensatz — zu beschreiben. Im Hinblick auf 
ein probabilistisches Modell erlaubt die Unabhängigkeitsannahme die Wahrschein- 
lichkeiten für das Vorkommen einzelner Terme/Wörter in Dokumenten unabhängig 
voneinander zu betrachten und zu verrechnen. Die Unabhängigkeitsannahme ist 
dabei natürlich stark vereinfachend, denn einzelne Begriffe wie z.B. „Dichter“ und 
„Poet“ werden keineswegs statistisch unabhängig in Dokumenten vorkommen. Die 
Unabhängigkeitsannahme ist aber wichtig, um effiziente mathematische und auch 
algorithmische Verfahren für das Ranking einsetzen zu können. 

Während das reine BIR-Modell in der praktischen Anwendung keine nennens- 
werte Rolle spielt, hat es doch viele weitergehende Verfahren beeinflusst und Ein- 
gang in das sehr oft genutzte Modell Okapi BM25 gefunden.” Im Folgenden werden 
wir dieses Modell in Anlehnung an Croft etwas genauer betrachten, da es den Cha- 
rakter von IR-Modellen exemplarisch verdeutlicht:” 


(N = m + 0,5) (ki +1) - FD) (ke + 1) - AQ) 
Score(D,Q) = lo Sei $ | 
e 2 +0) (A) 40-22) +40) ko + FQ) 


avdl 


Die Formel berechnet mit Score(D,Q) ein Maß fiir die Passung des Dokumentes D 
zur Anfrage Q. Die Anfrage Q besteht dabei aus einer Reihe von Anfragebegriffen 
i € Q. In der Summe der obigen Formel werden Werte für die einzelnen Anfragebe- 
griffe addiert. Dabei wird aus technischen Gründen der Logarithmus verwendet. 
Durch die Eigenschaften des Logarithmus ist gewährleistet, dass sich die Rangord- 
nung der Dokumente auf Basis der Score-Werte durch die Anwendung des Logarith- 
mus nicht ändert. Das folgende Produkt besteht aus drei Faktoren. Der erste Faktor 
bestimmt auf Basis der Kennzahlen N (= Anzahl der Dokumente in der Kollektion) 
und n; (= Anzahl der Dokumente, in denen der Begriff i vorkommt) eine aus dem 
BIR-Modell stammende Variante der idf-Komponente. Hier wird ausgedrückt, wie 
selten der Begriff in der Kollektion ist. Je seltener der Begriff, umso höher ist seine 
„Erklärungskraft“ für Dokumente, in denen er vorkommt. 


24 Vgl. Sparck 2000, 795-802. 
25 Vgl. Croft 2010, 243-252. 
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Für die folgenden beiden Faktoren werden Parameter k,, kz und b beriicksich- 
tigt, die für bestimmte Anwendungen optimiert werden können. Als Standardwer- 
te% werden z.B. kı = 1,2, ka € [0; 1000] und b = 0,75 genutzt. 

Im mittleren Faktor wird die Vorkommenshäufiskeit f;(D) des Begriffs i im Do- 
kument D berücksichtigt (tf-Komponente). Im Nenner wird dabei mit der Relation 
zwischen der Lange dl(D) des Dokumentes D und der durchschnittlichen Länge ei- 
nes Dokumentes in der Kollektion avdl und den gegebenen Parametern gerechnet, 
um zielgerichtet die Vor- und Nachteile kürzerer und längerer Dokumente durch 
eine angepasste Dokumentlängennormierung zu berücksichtigen. Dies ist wichtig, 
weil in kurzen Dokumenten einzelne Begriffe fast zwangsweise relativ häufig sind. 
Würde man also mit relativen Häufigkeiten arbeiten, würden kurze Dokumente im 
Ranking stark bevorteilt, während bei absoluten Häufigkeiten lange Dokumente im 
Ranking bevorzugt würden. Die angepasste Dokumentlängennormierung schafft 
hier einen Ausgleich. 

Der letzte Faktor spielt bei Stichwortanfragen keine Rolle, da dort die Vorkom- 
menshäufigkeit der Stichworte in der Anfrage f;(Q) in der Regel jeweils 1 sein wird. 
Verwendet man die Formel jedoch um Anfragetypen wie „Suche ähnliche Doku- 
mente“ zu unterstützen, sollte die Vorkommenshäufigkeit im Anfragedokument be- 
rücksichtigt werden. Auch hier kann die Auswirkung wieder über einen Parameter 
(k,) gesteuert werden. 

Die betrachtete Formel verdeutlicht den typischen Aufbau von Ranking-Funk- 
tionen, die dazu dienen, die Dokumente anhand der errechneten Werte im Ergebnis 
zu einer Anfrage zu sortieren. 


4.4 Sprachmodelle 


Neben dem Vektorraummodell oder BM25 existieren weitere für Suchsituationen, 
Dokumentvergleiche und andere Aufgabenfelder vielversprechende Ansätze. Einer 
dieser Ansätze basiert auf statistischen Sprachmodellen. Einzelne Dokumente wer- 
den hier mithilfe der Vorkommenswahrscheinlichkeiten der in ihnen enthaltenen 
Wörter charakterisiert (relative Vorkömmenshäufigkeiten). Mathematisch gesehen 
liegt dabei eine Multinomialverteilung über Wörtern vor (Urnenmodell mit Zurück- 
legen). Diese Sprachmodelle können entweder genutzt werden, um z.B. zu ermit- 
teln, wie wahrscheinlich die Generierung einer bestimmten Anfrage auf Basis des 
Sprachmodells eines Dokumentes wäre. Das Dokument mit der höchsten Wahr- 
scheinlichkeit, eine bestimmte Anfrage zu generieren, wird dann als relevantestes 
Dokument für diese Anfrage eingestuft. Auf der anderen Seite erlauben diese Model- 
le aber auch, Dokumente miteinander zu vergleichen und ähnliche Dokumente auf 


26 Vgl. Robertson 1999, 3. 
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Basis der Sprachmodelle zu bestimmen. Fiir den erfolgreichen Einsatz von Sprach- 
modellen spielen dabei Glattungstechniken eine wichtige Rolle, bei denen die aus 
den Wortvorkommen im Dokument gewonnenen Wahrscheinlichkeiten mit entspre- 
chenden Hintergrundwahrscheinlichkeiten geglättet werden.” Dadurch wird insbe- 
sondere das Problem behoben, dass Begriffe, die nicht in einem Dokument vorkom- 
men, eine Erzeugungswahrscheinlichkeit von O als Anfragebegriffe erhalten wür- 
den. Sprachmodelle werden beispielsweise in der Websuche verwendet, um die 
Relevanz der Elemente auf der Suchergebnisseite zu verbessern.?® 


4.5 Multimedia Information Retrieval 


Multimediale Daten erfordern auf den Datentyp angepasste Verarbeitungsschritte, 
um Retrieval ähnlich zu den vorgestellten Modellen für Text zu ermöglichen. Nicht 
nur Bilder, sondern auch weitere Medien wie Video und Audio sind im Bereich der 
Forschungsdaten von großer Bedeutung und müssen entsprechend behandelt wer- 
den. Exemplarisch soll hier auf einige Besonderheiten bei der Analyse von Bildern 
eingegangen werden. 

Metadaten spielen bei der Bildsuche - wie auch im Text Retrieval — eine große 
Rolle, da je nach Umfang und Qualität der Metadaten die Anfragen ohne Rückgriff 
auf die eigentlichen Bildinhalte beantwortet werden können. Auch hier sind Stan- 
dards wie Dublin Core oder CIDOC CRM weit verbreitet. Falls die Anfragen jedoch 
mittels Metadaten nicht ausreichend beantwortet werden können, muss eine in- 
haltsbasierte Analyse hinzugezogen werden. Das sogenannte „Content Based Image 
Retrieval“ bezieht hierzu Farb- oder Helligkeitswerte der Pixel in die Analyse ein, 
wobei wie im Text Retrieval zahlreiche Modelle und Techniken verfügbar sind.” 

Die klassische Bildanalyse analysiert Eigenschaften des gesamten Bildes, insbe- 
sondere Farben, Texturen und Formen, und kann somit bei spezifischen Suchanfra- 
gen, etwa zur Suche nach Ähnlichkeiten zwischen Markenzeichen und Firmenlogos 
erfolgreich eingesetzt werden.” Sollen jedoch nur Teile eines Bildes betrachtet wer- 
den, etwa um andere Bilder zu finden, in denen das Anfragebild als Teilbild auf- 
taucht, werden die Schwächen der klassischen Bildanalyse deutlich. In Anwendun- 
gen, in denen nicht mithilfe von Stichwörtern, sondern mit einem Anfragebild ge- 
sucht werden soll - auch als „Query by Example“ bezeichnet - wird daher oft eine 
Segmentierung vorgenommen. So können lokale, charakteristische Stellen im Bild 
identifiziert werden. Mittels dieser Bildregionen sollen in der Suche auch Bilder ge- 


27 Vgl. Zhai 2004, 183-185. 

28 Vgl. Ogilvie 2003, 143-150. 
29 Vgl. Ponceleon 2011, 592-597. 
30 Vgl. Bullin 2020, 8-10. 
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funden werden, die nur in einem kleinen Teilbereich tibereinstimmen bzw. diesem 
ahneln.*! Der Gedanke der Segmentierung wird dabei von Verfahren fortgeführt, die 
markante Punkte im Bild identifizieren und deren lokale Umgebung durch ihre Ei- 
genschaften (z. B. die Orientierung von Kanten oder Farbverläufen) repräsentieren.” 
Für große Datenbestände wurden hierzu effiziente Methoden eingeführt. „Bag of Vi- 
sual Words“ etwa stellt einen Vektorraum auf, in Analogie zum im Text Retrieval 
lange eingesetzten „Bag of Words“-Modell, um darin charakteristische „Visual 
Words“ abzubilden, die das Bild beschreiben. Diese Visual Words können z.B. 
durch Clustern der markanten Bildpunkte aus einer Beispielkollektion auf Basis ih- 
rer Beschreibungsvektoren gewonnen werden. 

In neuerer Zeit haben in der Bildsuche auf neuronalen Netzen basierende An- 
sätze große Fortschritte erzielt. Dies gilt insbesondere für die Klassifikation von 
Bildinhalten und damit für die (semi-)automatische Annotation von Bilddaten. Hier- 
zu werden in der Regel sogenannte Deep Convolutional Neural Networks genutzt.*? 


4.6 Weitere Einflussfaktoren zum Ranking 


Während die bisher betrachteten Modelle ihren Fokus auf der inhaltlichen Passung 
von Dokumenten haben, sind für die Relevanz von Dokumenten im Hinblick auf 
eine konkrete Anfrage häufig auch noch andere Kriterien ausschlaggebend. Man 
denke hier z.B. an das Veröffentlichungsjahr, an die veröffentlichende Institution 
oder gegebenenfalls auch an die Popularität einzelner Dokumente bzw. Datensätze. 
Im Bereich der Websuchmaschinen hat hier z. B. der PageRank-Algorithmus”* große 
Bedeutung gewonnen. Das Ranking von Dokumenten wird daher bei vielen Such- 
maschinen nicht allein auf Basis der inhaltlichen Passung zu einer Anfrage ermit- 
telt. Stattdessen werden verschiedene Kriterien miteinander in Bezug gesetzt. Ein- 
zelne Kriterien können als Filter genutzt oder mit einer bestimmten Gewichtung in 
das Ranking eingerechnet werden. Ein Beispiel für einen Filter wäre, dass man den 
Suchraum auf Datensätze beschränkt, die in einem bestimmten technischen Format 
vorliegen. Eine andere Variante wäre, dass man sich im Ranking zu einem gewissen 
Prozentsatz auf die inhaltliche Passung und zu einem anderen Prozentsatz auf ein 
entsprechend zu definierendes Popularitätskriterium beziehen könnte. Verfahren, 
die Suchsysteme mit mehreren Kriterien betrachten, sind unter Begriffen wie multi- 
kriterielles Matching oder Polyrepräsentation bekannt geworden. Die Gewichtung 


31 Vgl. Bullin 2020, 10-12. 
32 Vgl. Tuytelaars 2007, 177-280. 
33 Vgl. Goodfellow 2016, 326-366. 
34 Vgl. Brin 1998, 109-111. 
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und Verrechnung der einzelnen Kriterien ist dabei ein wichtiges Forschungsgebiet, 
das im Forschungsfeld „Learning to Rank“ Gegenstand intensiver Forschung war 
und ist. Eine andere Umsetzung der Suche auf Basis verschiedener Kriterien ist die 
facettierte Suche mit verschiedenen Kriterien zum Filtern und Sortieren, wie wir sie 
z.B. aus Online-Shops oder Gebrauchtwagenbörsen kennen”. 

Bei all diesen Überlegungen zu Retrievalmodellen darf nicht übersehen werden, 
dass wichtige Entscheidungen bereits in der Vorbereitung der Dokumente bzw. Da- 
tensätze und in einer gegebenenfalls durchzuführenden Aufbereitung der Anfrage 
liegen. Bei der Vorbereitung der Dokumente sind wichtige Schritte im Bereich des 
Tokenizing zu sehen (was wird als Wort betrachtet?), aber auch im Bereich der 
Stoppworteliminierung oder der Stamm- bzw. Grundformreduktion (Lemmatisie- 
rung). Bei der Stoppworteliminierung werden gezielt Begriffe aus der Betrachtung 
ausgeschlossen, die grammatikalische oder syntaktische Funktionen im Text über- 
nehmen und daher als Begriff keine Rückschlüsse auf den Inhalt des Dokumentes 
erlauben. Stoppwortlisten für das Englische beinhalten in der Regel einige hundert 
Wörter. Heute wählen Suchmaschinen oft den Ansatz, Stoppworte mit zu indexieren 
und dann im Rahmen der Anfragebearbeitung entsprechend gering zu gewichten - 
was z.B. durch BM25 praktisch automatisch erfolgt. Für die Stamm- und Grundform- 
reduktion werden in der Literatur viele Algorithmen vorgeschlagen.’° Eine solche 
Reduktion vereinfacht die Suche und vereinheitlicht die Begriffswelt. Sie führt aber 
auch dazu, dass bestimmte Wortformen nicht mehr ohne Weiteres gezielt recher- 
chiert werden können. Daher stellt sich insbesondere bei einer Suche nach For- 
schungsdaten die Frage, wie hier konkret vorgegangen werden sollte. Ein weiterer 
Ansatzpunkt für Optimierungen ist die Anfrage selbst. Hier kommen häufig soge- 
nannte Erweiterungstechniken zum Einsatz, bei denen Anfragen auf Basis eines 
kontrollierten Vokabulars oder auf Basis statistischer Modelle mit bedeutungsähnli- 
chen Begriffen erweitert werden. Dadurch kann in der Regel der Recall verbessert 
werden, die Precision leidet aber häufig unter derartigen Ansätzen. 

Erst das zielgerichtete Zusammenspiel von Retrievalmodellen, entsprechenden 
Vorverarbeitungsschritten für die Dokumente sowie geeigneten Erweiterungstechni- 
ken für die Anfragen schafft in der Regel die Basis für eine leistungsfähige, dem 
konkreten Anwendungsfeld angemessene Suchlösung. 


35 Vgl. Tunkelang 2009, 39-43. 
36 S. z.B. https://snowballstem.org. 
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5 Umsetzung von Suchsystemen 


Die Umsetzung der im vierten Kapitel beschriebenen Modelle benötigt speziell auf 
die Suche ausgerichtete Implementierungstechniken, welche die Suche in großen 
Datenmengen effizient ermöglichen. Eine in vielen Implementierungen eingesetzte 
Datenstruktur ist die invertierte Liste. 

Die Invertierung beruht auf der Überlegung, dass normalerweise die Dokumen- 
te oder Datensätze, die als Forschungsdaten bereitstehen, zusammen mit den in ih- 
nen enthaltenen Wörtern abgespeichert werden. Ein Dokument ist dabei praktisch 
eine Liste von Worten. Eine invertierte Liste hingegen legt für jedes Wort eine Liste 
der Dokumente an, in denen dieses Wort enthalten ist. Der Hintergrund dieser Da- 
tenstruktur ist, dass gewöhnliche Suchanfragen einige wenige Worte umfassen. Bei 
den im vorherigen Kapitel betrachteten Modellen müssen bei der Bearbeitung einer 
Anfrage nun „nur“ die invertierten Listen zu den wenigen Anfragebegriffen durch- 
laufen werden. Dies erlaubt eine effiziente Bearbeitung, da eine gezielte Konzentra- 
tion auf die potenziell relevanten Dokumente möglich ist. Für eine Anfrage „Goethe 
Weimar Brief“ müssen so nur die drei Listen zu den Anfragebegriffen durchlaufen 
werden, wobei z.B. die Werte für die BM25-Formel zu den einzelnen Dokumenten, 
die in den Listen enthalten sind, berechnet werden. Eine Strategie zur weiteren Op- 
timierung ist dann, die Listen nach Dokument-IDs zu sortieren und so die Berech- 
nungen in einem parallelen Durchlauf vornehmen zu können. Es existieren aber 
noch zahlreiche weitere Verfahren zur Optimierung invertierter Listen, die z.B. bei 
Witten oder Büttcher beschrieben werden. ?” 

Zwei problematische Aspekte für invertierte Listen sind sehr große Datenmen- 
gen und hohe Änderungsraten. Im Bereich der Websuche müssen die invertierten 
Listen z.B. verteilt verwaltet werden, um die Datenmenge bewältigen zu können. 
Grundsätzlich wäre es dabei möglich, eine invertierte Listenstruktur zu verteilen, in- 
dem alle beteiligten Rechner jeweils für eine bestimmte Teilmenge von Wörtern zu- 
ständig wären und die entsprechenden Listen verwalten würden. Problematisch 
wäre dabei allerdings, dass Rechner, die für populäre Anfragebegriffe zuständig wä- 
ren, schnell überlastet werden könnten. Üblicher ist daher eine Aufteilung der Ge- 
samtmenge der Dokumente auf verschiedene Rechencluster. Auf diesen Rechen- 
clustern werden dann jeweils eigene invertierte Listen (z.B. für bestimmte 
Regionen) verwaltet. Anfragen werden dann ggf. parallel auf mehreren Clustern be- 
arbeitet und die erzielten Ergebnisse kombiniert. 

Gerade im Bereich der Websuche stellen Aktualisierungen einzelner Dokumente 
ein weiteres Problem dar, da hier ggf. viele invertierte Listen zu modifizieren wären. 
Man arbeitet daher oft mit größeren stabilen invertierten Listen und Differenzlisten 
für aktuelle Änderungen und Löschungen. Damit werden Anfragen und Änderun- 
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gen zu komplexen Abläufen, welche in der Regel mehrere Datenstrukturen und 
Rechner betreffen und von Verteilerknoten orchestriert werden. °® 


6 Architekturen von Suchlösungen 


Während bei Websuchmaschinen allein die Menge der zu indexierenden Dokumen- 
te eine verteilte Lösung erzwingt, ergeben sich bei Forschungsdaten verteilte Archi- 
tekturen oft auf Basis der technisch, rechtlich und auch historisch bedingten dezen- 
tralen Verwaltung der Daten. Für die Umsetzung der Suche in und nach 
Forschungsdaten stehen dabei unterschiedliche Ansätze und Architekturen zur Ver- 
fügung. 

Ausgangspunkt der Überlegung ist, dass eine Nutzerin bzw. ein Nutzer einen 
Informationsbedarf hat. Die Forschungsdatenbestände, auf die sich die entspre- 
chende Suche beziehen sollte, sind über mehrere Systeme zur Verwaltung von For- 
schungsdaten verteilt. Die Systeme verfügen in der Regel über eigene Such- und Ex- 
portschnittstellen, wobei die Leistungsfähigkeit dieser Schnittstellen von System zu 
System stark variieren kann. 

Ein erster Ansatz wäre nun die „direkte Suche“, bei der die Nutzerin bzw. der 
Nutzer die relevanten Systeme selbst recherchiert und dann deren jeweilige Such- 
schnittstelle zur individuellen Abfrage nutzt. Hier muss die Nutzerin bzw. der Nut- 
zer die Recherche nach potenziell relevanten Beständen selbst durchführen, sich 
selbst mit den verschiedenen Suchschnittstellen auseinandersetzen und selbst die 
Kombination der Ergebnisse vornehmen. 

Der Aufwand, der für die Nutzerin bzw. den Nutzer bei der direkten Suche 
durch die manuelle Arbeit mit den diversen Suchanwendungen anfällt, kann durch 
andere Suchkonzepte verringert werden. Metasuchmaschinen binden z.B. mithilfe 
von Suchschnittstellen anderer Suchlösungen deren Datenbestände in eine Suchan- 
frage mit ein.” Dadurch ist mit einer einzelnen Suchanfrage, die von der Metasuch- 
lösung mithilfe von transformierten Anfragen an die anderen Suchlösungen weiter- 
geleitet wird, die Durchsuchung vieler Datenbestände möglich. Somit können Such- 
ergebnisse aus vielen Datenbeständen zurückgegeben und nachgewiesen werden. 
Probleme treten hier jedoch ggf. bei der Umsetzung der Metasuchlösung auf, da 
sich die Transformation der Suchanfragen für die anderen Suchlösungen zeit- und 
kostenaufwendig gestalten kann und außerdem ein übergreifendes Ranking der 
Suchergebnisse kaum möglich ist - zu einzelnen Suchergebnissen ist zwar der 
Rang, zumeist jedoch nicht die detaillierte Bewertung oder deren Berechnung ver- 
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fügbar. Auf der anderen Seite ist bei einer Metasuchlösung die bei Forschungsdaten 
oft bedeutsame Problematik von Zugriffsrechten in der Regel gut handhabbar, da 
die Daten, in denen gesucht wird, weiterhin in den originalen Datenbeständen vor- 
liegen und die zentrale Suchlösung nur die Suchanfrage und die Zugriffsrechte der 
Nutzerin bzw. des Nutzers weiterleitet. Praktische Anwendung findet das Konzept 
der Metasuchlösung z.B. in der Suchmaschine Metager“® oder der Federated Con- 
tent Search von CLARIN.“ 

Eine weitere Alternative ist das Konzept des Gathering. Hierbei leitet die primäre 
Suchlösung nicht die Anfragen weiter, sondern nutzt die Exportschnittstellen der 
anderen Systeme, um einen gesammelten Index aufzubauen, auf dem die Anfragen 
ausgeführt werden können. Die Daten werden somit zentral gesammelt, weshalb 
eine einheitliche Suchansicht und ein übergreifendes Ranking angeboten werden 
kann. Andererseits tritt hier das Problem der Zugriffsrechte verstärkt auf, da die 
Rechte der Nutzerin bzw. des Nutzers für die jeweiligen Datenbestände einzeln ge- 
prüft werden müssen. Weiterhin fällt für die Suchlösung hier in der Regel ein deut- 
lich höherer Speicherplatzbedarf an, der für die Verwaltung des Index aller Daten- 
bestände notwendig wird. Außerdem ist die Synchronisierung der Daten problema- 
tisch, da Neuerungen oder Änderungen in den Datenbeständen unter Umständen 
nicht an die zentrale Suchlösung weitergegeben werden und somit die Anfrage auf 
veralteten Daten ausgeführt wird. Neben der Suchlösung der „Generischen Suche“ 
von DARIAH-DE* findet sich das Gathering-Konzept unter anderem in dem 
„B2Find“-Discovery-Service von EUDAT.” 

Die Entwicklung hin zu verteilten Systemen, die auf Basis von Architekturen 
wie Metasuchmaschinen oder Gathering umgesetzt werden, erfordert eine gemein- 
same Sprache und ein einheitliches Protokoll, um den Austausch der Daten über 
die Schnittstellen zu ermöglichen. Frühe Systeme, die über derartige Schnittstellen 
Daten und Suchanfragen austauschen, waren oft im Bereich von Bibliotheken ange- 
siedelt. Einheitliche Metadatenformate (vgl. Abschnitt 3) bildeten die Basis für die 
Entwicklung hin zu einer gemeinsamen Suchschnittstelle - im Bibliothekswesen 
beispielsweise durch den MARC-Standard vertreten, welcher bereits in den 1960er 
Jahren in den USA entwickelt wurde. 

Ein frühes Protokoll war der Z39.50-Standard, ebenso in den USA von der Libra- 
ry of Congress initiiert. Z39.50 definiert ein Client-Server-System, worin der Server 
an mehrere Datenbanken gekoppelt ist und über das Protokoll Anfragen vom Client 
an den Server gesendet werden können. Da Z39.50 vor dem Durchbruch von Web- 
Technologien entwickelt wurde, werden Anfragen und Antworten zwischen Client 
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und Server iiber ein eigenes Protokoll gesendet, welches nicht kompatibel mit ge- 
genwartig gebräuchlichen Web-Standards ist. Diese Einschränkung wurde in einer 
Weiterentwicklung des Z39.50-Standards behandelt, genannt Z39.50 International 
Next Generation, in welcher weit verbreitete Standards wie HTTP, URI und XML ein- 
gesetzt werden. 

Innerhalb dieser neuen Version wird insbesondere die explizite Trennung in ein 
Protokoll Search/Retrieve via URL (SRU) und eine Anfragesprache Contextual Query 
Language (CQL) vorgenommen. Anfragen werden mithilfe dieser beiden Technolo- 
gien via HTTP versendet, in einer standardisierten Syntax in CQL ausgedriickt und 
mittels XML übermittelt. Die Öffnung hin zu gängigen Technologien erlaubt den 
Einsatz von SRU und CQL nicht nur im Bibliothekswesen, sondern auch in anderen 
Einsatzgebieten wie etwa Museen oder - noch generischer - in der Internetsuche 
allgemein. Anfragen in SRU und CQL basieren im Übrigen auf weiteren, inhaltlichen 
Standards wie z.B. Dublin Core. 

Konkret bieten z.B. sowohl der Bayerische Bibliotheksverbund als auch die 
Deutsche Nationalbibliothek eine SRU Schnittstelle für ihre Datenbestände an. 
Selbst der ältere Standard Z39.50 kann in modernen Systemen benutzt werden, bei- 
spielsweise sieht die Literaturverwaltungssoftware Citavi** diese Schnittstelle wei- 
terhin vor, um direkt in den Bibliothekskatalogen unterschiedlicher Institutionen zu 
suchen. 


7 Beispiele für Suchlösungen 


Nachdem sowohl die grundlegenden Protokolle und Schnittstellen als auch die al- 
gorithmischen Hintergründe der Umsetzung von Suchsystemen präsentiert wurden, 
sollen nun sowohl Frameworks und Programmbibliotheken vorgestellt werden, die 
in der Praxis eingesetzt werden, als auch konkrete Suchsysteme, welche aktuell im 
Einsatz sind. 


7.1 Frameworks und Bibliotheken 


Für die praktische Umsetzung der Suche in Daten stehen Softwarelösungen auf un- 
terschiedlichen Ebenen zur Verfügung. Die Bibliothek Lucene“ ermöglicht die Su- 
che in Daten mit Fokus auf Text. Sie ist in Java geschrieben und als Projekt der Apa- 
che Software Foundation entwickelt worden und bildet gleichermaßen die Basis für 
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andere Bibliotheken und Frameworks. In Lucene sind verschiedene IR-Modelle wie 
BM25 umgesetzt, so dass sie einfach zur Berechnung der Suchergebnisse verwendet 
werden können. 

Eng verknüpft mit Lucene ist Solr,“° ebenfalls als Apache-Projekt entwickelt. 
Diese Plattform ist auf den Einsatz im Unternehmensbereich ausgerichtet, mit grö- 
ßeren Netzwerken und auf verteilten Systemen. Solr verwendet Lucene als Basis 
und erlaubt dessen Anwendung mittels Administrationsoberflächen, Analysetools 
und weiteren Funktionen. Das Projekt Blacklight“ bietet eine Schnittstelle, um die 
Suchfunktionalitäten von Solr für eine Vielzahl von Anwendungsfällen mittels Ruby 
on Rails als Webapplikation bereitzustellen, beispielsweise für raumbezogene Daten 
oder im Kontext von Bibliotheken und Museen. 

ElasticSearch“® nutzt ebenso wie Solr die Funktionalitäten von Lucene im Hin- 
tergrund, hebt sich jedoch durch einen web-basierten Workflow mittels REST APIs 
von Solr ab. Die Abfragen sind in ElasticSearch in JSON verfasst und können durch 
verschiedene Programmiersprachen gestellt werden, da eine Vielzahl an Clients ver- 
fiigbar ist. 

Funktional deutlich weitreichender als die angesprochenen Bibliotheken wurde 
das Suchsystem vufind’? entworfen, um im Bereich von Bibliotheken den traditio- 
nell genutzten Online Public Access Catalogue (OPAC) zu ersetzen. Mittels vufind 
kann in einem System nicht nur der Bestand einer Bibliothek zur Suche verfügbar 
gemacht werden, sondern es können die Bestände vieler Institutionen und Biblio- 
theken eingebunden sowie mittels diverser Schnittstellen zugänglich gemacht wer- 
den, etwa OAI oder das bereits erwähnte Solr. 

Diese Technologien unterscheiden sich im Umfang der angebotenen Funktiona- 
litäten und dadurch auch durch ihre Komplexität. Große Suchlösungen wie vufind 
benötigen eine Vielzahl an zugehöriger Software und sind dadurch nicht nur in ih- 
rer Installation zeitaufwendig, sondern verursachen durch die Wartung und gegebe- 
nenfalls Anpassung an die jeweiligen Anforderungen weitere Kosten. Schlankere 
Suchlösungen, die durch Bibliotheken wie Lucene ohne große Frameworks imple- 
mentiert sind und etwa nur die Anbindung über SRU und CQL an die Daten anbie- 
ten, können für die Datenbestände von kleineren Institutionen eine lohnenswerte 
Alternative sein, falls die Anwendungszwecke hier auch verhältnismäßig schmal ge- 
halten werden. 
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7.2 Exemplarische Systeme 


In der Praxis eingesetzte Systeme gibt es sowohl auf nationaler als auch auf interna- 
tionaler Ebene. Dementsprechend sollen hier exemplarisch mehrere Projekte vorge- 
stellt werden, um die Ziele der jeweiligen Suchsysteme aufzuzeigen. 

Die Generische Suche der digitalen Forschungsinfrastruktur DARIAH-DE” ist 
ein Suchsystem, welches auf nationaler Ebene die Suche in Sammlungen verschie- 
dener Institutionen ermöglicht. Da DARIAH-DE als Föderationsinfrastruktur hetero- 
gene Daten aus unterschiedlichen Quellen in einem Suchsystem zugänglich macht, 
kann das System als Gathering-Architektur charakterisiert werden. Von besonderer 
Bedeutung sind für die Generische Suche Forschungsdaten aus dem geisteswissen- 
schaftlichen Bereich, die als Sammlungen in das Suchsystem integriert werden. Die 
Heterogenität dieser Sammlungen ist eines der Merkmale geisteswissenschaftlicher 
Forschungsdaten, das im Rahmen der Digital Humanities derzeit häufig adressiert 
wird. In der Generischen Suche wird dieses Problem mit Komponenten wie der 
Collection Registry, für die Eintragung und Beschreibung von Sammlungen, und 
dem Data Modeling Environment, zur Modellierung und Abbildung von Daten und 
deren Metadatenschemata, behandelt.°! 

Der Einsatz von SRU und CQL in einer Metasuchlösung wird beispielsweise in 
der Federated Content Search (FCS) von CLARIN, einer Forschungsinfrastruktur für 
die text-bezogenen Geistes- und Sozialwissenschaften, umgesetzt. In dieser Appli- 
kation wird mittels des SRU Protokolls in der Anfragesprache CQL eine Anfrage vom 
Client zu einem Endpoint weitergeleitet, wo die CQL-Anfrage so übersetzt wird, dass 
die lokale Suchlösung diese Anfrage weiterverarbeiten kann. 

Auf internationaler Ebene wird der B2Find-Service durch die EUDAT Initiative 
bereitgestellt. B2Find ermöglicht die explorative Suche und das Entdecken von Da- 
ten über die Suche in Metadaten aus Forschungssammlungen. Die Forschungsdaten 
werden über einen Katalog aus in EUDAT verzeichneten Services und Metadaten für 
die Suche vorbereitet. B2Find stellt somit nicht nur die Suche in den Volltexten der 
Forschungsdaten zur Verfügung, sondern auch die Suche mittels der Metadaten 
nach facettierten, raumbezogenen und zeitlichen Eigenschaften und erlaubt damit 
die Filterung nach diesen Kategorien. 

Die European Open Science Cloud (EOSC)”, und insbesondere deren EOSC-hub, 
umfasst neben einer Schnittstelle zu B2Find eine Vielzahl von Services und anderen 
Ressourcen für die Forschung mit dem Ziel des Zugriffs, der Verarbeitung und der 
Analyse von Daten. Ein Fokus der EOSC ist die Betonung von Open Science — wel- 
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che durch die wesentliche Rolle von Konzepten wie Open Data, Open Source oder 
Open Access geprägt ist. 

Im Bereich spezifischer Suchlösungen kann erneut exemplarisch auf das Pro- 
jekt Blacklight, und insbesondere dessen Ausprägung GeoBlacklight” verwiesen 
werden, welches Suchanwendungen zu raumbezogenen Daten ermöglicht, etwas 
das Big Ten Academic Alliance Geoportal.™ Mithilfe dieses Geoportals können Insti- 
tutionen aus den Vereinigten Staaten Zugang zu Tausenden von Karten-Datensät- 
zen bereitstellen, inklusive Webservices und Zugangsmechanismen zu den Daten. 


8 Zusammenfassung 


Im vorliegenden Beitrag wurde ein Überblick über diverse Konzepte und Ansätze 
zum Data Retrieval für Forschungsdaten gegeben. Erfolgreiche Ansätze müssen die 
Nutzerin bzw. den Nutzer mit ihrem bzw. seinem Informationsbedarf im Blick ha- 
ben. Die bestehenden Modelle zur inhaltsbasierten Suche und insbesondere Ansätze 
zur Kombination verschiedener Kriterien bilden dabei eine gute formale Basis. Für 
die Nutzung und Umsetzung konkreter Suchlösungen existieren Programmbiblio- 
theken, Frameworks und Systeme, die nachgenutzt werden können. Eine Herausfor- 
derung ist der Zwiespalt zwischen der fachlich bedingten Heterogenität von For- 
schungsdaten und den zugehörigen Metadaten sowie dem Wunsch nach einer 
übergreifenden Recherchierbarkeit, die es erlaubt, interdisziplinäre Zusammenhän- 
ge und Perspektiven zu adressieren. 
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Claudia Engelhardt und Harald Kusch 
5.3 Kollaboratives Arbeiten mit Daten 


Abstract: Viele Forschungsdaten werden durch kollaborative Initiativen erhoben, 
integriert, analysiert und der wissenschaftlichen Community zur Verfiigung gestellt. 
Dieser Beitrag beschäftigt sich mit unterschiedlichen Formaten, Herangehenswei- 
sen und Spannungsfeldern beim kollaborativen Arbeiten mit Daten und deren Im- 
plikationen für das Forschungsdatenmanagement. Es werden zunächst Chancen 
und Risiken beleuchtet und anschließend verschiedene Ausprägungen, Werkzeug- 
kategorien, organisatorische und regulative Maßnahmen sowie weitere Quer- 
schnittsaspekte betrachtet. Das Kapitel Praxistransfer gibt schließlich einen Über- 
blick über unterschiedliche Komplexitätsebenen bei der praktisch-technischen Um- 
setzung von Dateninfrastrukturen für die kollaborative Forschung und stellt zwei 
Anwendungsbeispiele aus den Geowissenschaften und der Kardiologischen Grund- 
lagenforschung vor. 


Einleitung 


Wissenschaft ist seit jeher ein gemeinschaftliches Unterfangen, bei dem Forschende 
auf den Ergebnissen und Erkenntnissen ihrer Vorgängerinnen und Vorgänger sowie 
Peers aufbauen. Zunehmend wird Wissenschaft in großen Forschungsteams und 
-verbünden betrieben, was zum einen mit der Komplexität der Forschungsgegen- 
stände und -fragen zusammenhängt, zum anderen auch oft organisatorische oder 
finanzielle Gründe hat.' Als Vorreiter dieser Entwicklung können die Natur- sowie 
die Sozialwissenschaften betrachtet werden’. 

Kollaboratives Arbeiten lässt sich, in einem engeren Sinne, als eine besondere 
Form der Zusammenarbeit definieren, bei der die Beteiligten gemeinsam und gleich- 
zeitig eine Aufgabe, ein Projekt oder eben Daten bearbeiten. Dies unterscheidet kol- 
laboratives Arbeiten von der „bloßen“ Teamarbeit, bei der zwar ein gemeinsames 
Ziel verfolgt wird, die zur Erreichung notwendigen Aufgaben aber nicht notwendi- 
gerweise zusammen, sondern von Einzelnen und parallel bearbeitet werden.’ Im 
Alltag werden kollaborative Forschung und das kollaborative Arbeiten an Daten 
nach dieser engen Definition oft nur einen Teil der Arbeit in einem Forschungspro- 


1 Vgl. Schefer 2012, 85. 
2 Vgl. Thagard 2002, 242-245. 
3 Vgl. Warkentin 2019. 


8 Open Access. © 2021 Claudia Engelhardt und Harald Kusch, publiziert von De Gruyter. [CIE] Dieses Werk 
ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
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jekt ausmachen. So zeichnet sich kollaborative Forschung nach dem Verständnis 
des Schweizerischen Nationalfonds (SNF) dadurch aus: 


dass die angestrebten Forschungsziele nur erreicht werden können, indem mehrere Gesuch- 
stellende komplementäre Kompetenzen und Kenntnisse in einem neuen, gemeinsamen For- 
schungsansatz zusammen bringen [sic]. Das gemeinsame Forschungsziel sollte nur durch in- 
tensive Zusammenarbeit erreicht werden können.” 


In ähnlicher Weise wird kollaborative Forschung etwa vom Forschungszentrum In- 
formatik (FZI Karlsruhe) beschrieben: 


In kollaborativen Forschungsprojekten arbeitet ein Verbund von Partnerinnen und Partnern 
an einer definierten Forschungsaufgabe. [...] In der kollaborativen Forschung verläuft der Wis- 
senstransfer nicht ausschließlich von Forschungspartnerinnen und -partner [sic] zu den Auf- 
traggebenden, sondern alle Projektpartnerinnen und -partner unterstützen sich gegenseitig 
mit ihren Kompetenzen, um ein gemeinsames Forschungsziel zu erreichen.” 


In großen, kollaborativen Verbundprojekten (Konsortialforschung), wie beispiels- 
weise den Sonderforschungsbereichen (SFB) der Deutschen Forschungsgemein- 
schaft (DFG), wird zur Erreichung des gemeinsamen Projektziels eher eine Misch- 
form von kollaborativer Arbeit im Sinne der eingangs angeführten engen Definition 
sowie von Teamarbeit die Regel sein, in der einzelne Teilprojekte zunächst einmal 
ihr Thema und ihre Daten bearbeiten, die dann zusammengeführt werden. Dies gilt, 
in kleinerem Maßstab, auch auf der Ebene der Teilprojekte oder für kleinere Projek- 
te. In all diesen diversen Konstellationen ergeben sich spezifische Anforderungen 
für das Datenmanagement. 


1 Chancen, Risiken und Hindernisse beim kollabora- 
tiven Arbeiten mit Daten 


Kollaboratives Arbeiten kann den Austausch und die Kommunikation innerhalb des 
Teams fördern. Durch den Ausgleich von Schwächen und die bessere Nutzung von 
Stärken der Beteiligten sowie die Vermeidung doppelter Arbeiten ermöglicht es eine 
effektivere Zusammenarbeit.° Wenn Forschende allein Daten erheben, bearbeiten 
und analysieren, haben sie einerseits die volle Kontrolle über die angewendeten Me- 
thoden und deren Dokumentation sowie die Einhaltung der Datensicherheit. Ande- 
rerseits bleiben eventuell Erkenntnisse in den Daten verborgen, die ohne die hetero- 


4 SNF o.J. 
5 FZI oJ. 
6 Vgl. Warkentin 2019. 
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genen Blickwinkel eines interdisziplindren Expertenteams nicht zum Vorschein 
kommen können. Der Einsatz moderner Kommunikationstechnologien und digitaler 
Werkzeuge erlaubt dabei eine flexible, ortsunabhängige und gleichzeitige Kollabo- 
ration auch über institutionelle und räumliche Grenzen hinweg. 

Jedoch stehen den Vorteilen des kollaborativen Arbeitens auch eine Reihe po- 
tenzieller Hindernisse und Gefahren gegenüber, die überwunden werden müssen, 
um die Qualität und Nachhaltigkeit der Forschungsergebnisse und -daten zu si- 
chern. Die Bandbreite an Herausforderungen, die sich dabei stellen, wird beispiels- 
weise durch die Ergebnisse einer 2018 durchgeführten, nicht-repräsentativen quali- 
tativen Befragung von Infrastruktur-Teilprojekten von SFBs’ illustriert (siehe auch 
Tab. 1). SFBs sind große, von der DFG geförderte, interdisziplinäre und kollabora- 
tive Forschungsprojekte, im Rahmen derer auch spezielle Infrastruktur-Teilprojekte 
beantragt werden können, die sich dem Aufbau und Betrieb von Dateninfrastruktu- 
ren sowie weiteren Bereichen des Forschungsdatenmanagements (FDM) widmen. 


Tab. 1: Herausforderungen in Infrastruktur-Teilprojekten von DFG-Sonderforschungsbereichen 
(n=20). 


Herausforderung Häufigkeit 


Akzeptanz 15 


Heterogenität 10 


Ressourcenmangel 


Technische Herausforderungen 


Informationswissenschaftliche Herausforderungen 


Schwierigkeiten bei der Personalakquise 


Schwierige Kooperation 


8 
7 
7 
Rechtliche Aspekte 5 
3 
2 
4 


Sonstiges 


Am häufigsten (von 15 der 20 teilnehmenden Projekte) wurden Probleme im Zusam- 
menhang mit der Akzeptanz genannt, die vor allem mit einem auf Seiten der For- 
schenden oftmals nur schwach ausgeprägtem Bewusstsein für die Notwendigkeit 
und den Mehrwert des Datenmanagements zusammenhängen. Als weitere Aspekte 
wurden in diesem Zusammenhang zudem der zusätzliche Aufwand, unterschiedli- 
che disziplinäre Wissenschaftskulturen sowie etablierte Forschungsprozesse, die 
durch die Berücksichtigung des Datenmanagements neu strukturiert werden müss- 
ten, angeführt. Die zweithäufigste Herausforderung, von der Hälfte der teilnehmen- 


7 Vgl. Engelhardt 2020, 22-23. 
8 Die Befunde bestätigen in ihrer Kernaussage die Ergebnisse einer ähnlichen, 2013 durchgeführten 
Untersuchung (vgl. Engelhardt 2020, 24-27; Engelhardt 2013). 
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den Projekte erwähnt, stellt die Heterogenität dar, die sich insbesondere in unter- 
schiedlichen beteiligten Disziplinen, Forschungsmethoden, -prozessen und -daten, 
aber auch einem inhomogenem Kenntnis- und Kompetenzniveau in Bezug auf den 
Umgang mit Daten äußert. Die Entwicklung einer Infrastruktur, eines organisatori- 
schen Rahmens und passender Unterstützungsangebote, die dieser Vielfalt gerecht 
werden, gestaltet sich schwierig. Damit hängen oftmals auch die technischen sowie 
informationswissenschaftlichen (z.B. die Entwicklung von Metadatenschemata) 
Herausforderung zusammen, die jeweils sieben Mal genannt wurden. Eine weitere 
Schwierigkeit, vor die sich acht der an der Befragung teilnehmenden Projekte ge- 
stellt sehen, sind mangelnde Ressourcen, vornehmlich in Bezug auf für FDM-Aufga- 
ben zur Verfügung stehende Personalmittel. Weiterhin wurden rechtliche Aspekte 
(fünf Nennungen), Schwierigkeiten bei der Akquise von qualifiziertem Personal 
(drei Nennungen) sowie einige weitere, seltener vorkommende Einzelaspekte er- 
wähnt. 

Abb. 1 symbolisiert eine Zusammenstellung von fünf potentiellen Spannungs- 
feldern, die bei der Konzeption von kollaborativen Arbeitsumgebungen und -prozes- 
sen berücksichtigt werden sollten: Heterogenität des Konsortiums, Transparenz, 
Vertrauen, Datenqualität und Datensicherheit. 


Berücksichtigung von 
Datenschutz, 
Intellectual Property, 


Daten- Ressourensicherheit 


sicherheit 


Repräsentation des 
Definition und Harmonisierung poet nations-, institutions-, und 
von Qualitätskriterien und Daten- genitat disziplinübergreifenden 
Mechanismen zu deren Einhaltung qualität des Kon- Komplexitätslevels 
For- sortiums 
schungs- 
zweck 


Hetero- 


Dokumentation zum 
Workflowmanagement 

und Prozessen zum Datenteilen 
(Daten-Provenance) 


Abstimmung von Trans- 
Vereinbarungen über Vertrauen parenz 
gemeinsame Datennutzung 


Abb. 1: Potentielle Spannungsfelder in der kollaborativen Forschung. Die Abbildung zeigt eine Zu- 
sammenstellung von fünf potentiellen Problemfeldern, die je nach Forschungszweck beim FDM zu 
berücksichtigen sind, damit kollaborative Arbeit mit Daten effizient und nachhaltig erfolgen kann 
(modifiziert nach Anhalt-Depies et al. 2019). 
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Je nach Forschungsszenario und Zweck des Umgangs mit Forschungsdaten variiert 
die Bedeutung der einzelnen Bereiche. Komplexitätsdimensionen der Heterogenität 
des Konsortiums existieren schon innerhalb der Fachbereiche, insbesondere aber 
disziplin- und auch grenziibergreifend. Wie oben bereits angesprochen, sind etwa 
viele DFG-geförderte SFBs fachübergreifend zusammengestellt, um wissenschaftli- 
che Fragestellungen synergistisch aus verschiedenen Blickwinkeln zu bearbeiten. 
Daraus ergeben sich vielfältige Unterschiede in der Kultur und den Werkzeugen zur 
kollaborativen Datenbearbeitung, die in diesen SFBs zumindest anteilig harmoni- 
siert werden müssen. Wenn verschiedene Partner an verteilten Standorten synergis- 
tisch forschen wollen, ist ein hohes Maß an Vertrauen in die gemeinsam generierten 
und zu bearbeitenden Daten erforderlich. Um dieses Vertrauen aufbauen zu kön- 
nen, ist es über die Gewährleistung der Datensicherheit notwendig, Datenerhe- 
bungs- und Verarbeitungsverfahren möglichst transparent und reproduzierbar zu 
gestalten. De Oliveira, de Oliveira und Mattoso beschreiben dazu Kernaspekte, die 
zur Reproduzierbarkeit von computerwissenschaftlichen Experimenten zu berück- 
sichtigen sind, und formulieren eine entsprechende Terminologie.’ Die meisten die- 
ser Aspekte können auch auf andere Wissenschaftsbereiche übertragen werden. Im 
Kern steht dabei die umfassende Dokumentation aller Daten und datenbezogenen 
Arbeitsabläufe („Daten-Provenance“). Umfangreiche Provenance-Informationen bil- 
den eine der Grundvoraussetzungen für eine hohe Datenqualität. Schapke et al. 
adressieren zusätzlich die Aspekte der Kommunikation und Parallelität. Sie führen 
aus, wie das Kommunikationsmedium und die Art der Kommunikation die Form 
und Qualität der Zusammenarbeit beeinflussen.!® Besondere Herausforderungen 
stellen Aufgaben, die parallel bzw. zeitgleich von vielen verschiedenen Forschen- 
den bearbeitet werden müssen. 

Ein wiederkehrendes Problem bei der nachhaltigen Etablierung von in Projekt- 
kontexten entwickelten organisatorischen oder technischen Maßnahmen zum trans- 
parenten kollaborativen Forschen ist die Kurzfristigkeit der zugrundeliegenden För- 
derprogramme. Hier ist es empfehlenswert, frühzeitig gemeinsam mit den lokalen 
Infrastrukturanbietern mittel- bis langfristige Konzepte zu erarbeiten, die den Wis- 
sens- und Technologietransfer von Projekt zu Projekt verbessern können." 

Um Hindernisse und Gefahren bei der kollaborativen Bearbeitung zu vermeiden 
oder zu minimieren, können eine Reihe organisatorischer und technischer Maßnah- 
men angewandt werden, auf die nachfolgend eingegangen wird. 


9 Vgl. De Oliveira, de Oliveira und Mattoso 2017. 
10 Vgl. Schapke et al. 2018. 
11 Vgl. Fleischer 2020; Stegemann 2020. 


456 —— Claudia Engelhardt und Harald Kusch 


2 Formate und digitale Werkzeugkategorien fiir das 
kollaborative Arbeiten mit Daten 


Kollaborative Forschung kann auf verschiedenen Ebenen organisiert und dadurch 
unterschiedlich komplex sein. Jedes Organisationsformat hat andere Anforderungen 
an Prozesse und Werkzeuge, die das gemeinsame Datenerheben und -bearbeiten er- 
möglichen. Im einfachsten Fall werden schon innerhalb einer Arbeitsgruppe Werk- 
zeuge eingesetzt, die die zeitgleiche digitale Datenerfassung erleichtern und harmo- 
nisieren können. Übliche Anwendungskategorien sind hier z.B. „Electronic Data 
Capture“ (EDC)-Systeme, Datenbanken, elektronische Laborbücher (ELN) oder Platt- 
formen zum gemeinsamen Schreiben wissenschaftlicher Texte. 

In der Konsortialforschung nehmen mit steigender Komplexität auch die Anfor- 
derungen an solche Systeme stark zu. Eine Kategorisierung der wesentlichen Orga- 
nisationsaspekte und eingesetzten Werkzeuge wird in den folgenden Abschnitten 
näher betrachtet. 

Spezielle Kollaborationsformate können sich auch aus der grundsätzlichen Art 
und Lokalisierung der Datenerhebung ergeben. Bei der Feldforschung (z.B. in der 
Ökologie oder den Geowissenschaften) ist es u. U. notwendig, Werkzeuge einzuset- 
zen, die teilweise ohne Internet („offline“) oder basierend auf besonders einfacher 
und robuster Hardware funktionieren müssen. Im Labor werden oft Dokumentati- 
onsprozesse und Werkzeuge benötigt, die wenig Zeit und Platz beanspruchen, da- 
mit sie effizient eingesetzt werden können. Auch kollaborative Datenbearbeitung 
aus dem Homeoffice oder von sonstigen zugangsbeschränkten Arbeitsplätzen erfor- 
dert u. U. spezielle IT-Werkzeuge, um Zugang zu allen wesentlichen Arbeitsumge- 
bungen zu erhalten. 

Die folgenden Abschnitte beleuchten wesentliche Querschnittsaspekte, die im 
kollaborativen Setting von besonderer Bedeutung sind. Praktische Lösungsansätze 
für das optimierte kollaborative Erheben und Bearbeiten von Forschungsdaten fin- 
den sich in der Fachliteratur unter Schlagworten wie „Virtuelle Forschungsumge- 
bungen“ oder „Data Management Framework“. Dabei stehen Themen wie die Be- 
schreibung neuer Werkzeuge und Prozesse, der Datensicherheit und zunehmend 
auch der Datenqualität im Vordergrund. 


2.1 Institutions- und disziplinübergreifende Projekte 
Konsortialforschung 
Häufig organisieren sich Forschungsinitiativen in standort- und/oder fachiibergrei- 


fenden Konsortien wie z.B. DFG-geförderten SFBs oder Forschungsgruppen. Um in 
diesen Konsortien effizient kollaborativ arbeiten zu können, werden abhängig vom 
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Szenario adäquate technische und organisatorische Arbeitsabläufe genutzt und ent- 
wickelt, die i.d.R. auf Vorerfahrungen der beteiligten Konsortialpartner beruhen. 
Dies stellt die standortübergreifenden Ansätze vor die Herausforderung, dass unter- 
schiedliche, an den jeweiligen Standorten etablierte Vorgehensweisen harmonisiert 
werden müssen. Üblich ist hierbei, einen Standort (z.B. den Sprechersitz) als Zen- 
trum zu definieren, an dem verschiedene technische Lösungen zusammenlaufen. 

Eine dynamische Vielzahl von digitalen, meist web-, teils cloudbasierten Werk- 
zeugen steht für das kollaborative Arbeiten zur Verfügung. Teilweise ermöglichen 
die Werkzeuge die gleichzeitige Bearbeitung durch viele Anwenderinnen und An- 
wender. 

In vielen Anwendungsszenarien wird es kaum möglich sein, für jedes neue 
FDM-Werkzeug separate Server-Hardware zu beschaffen und zu betreiben. Hierfür 
bieten professionelle Rechenzentren die Möglichkeit, Cloud-Infrastruktur zu nutzen. 
Weiterführende Übersichten über Definitionen zu Begriffen und verschiedene Berei- 
che des Cloud Computing sind in der Fachliteratur beschrieben." 

Wichtige Anwendungskategorien bei kollaborativen FDM-Services sind u.a. 
Werkzeuge für gemeinsame Datenerhebung,” Datenaufbereitung (z.B. OpenRefi- 
ne), Data Preparation,” Datenspeicherung und -verteilung (z.B. ownCloud”, 
SharePoint,” für eine Übersicht verschiedener Möglichkeiten des File Sharing siehe 
UK Data Service o.J. b), Softwareentwicklung (GitHub,'® GitLab’’), Workflowma- 
nagement (z.B. KNIME,”° Taverna”), Materialverwaltung (z. B. QUARTZY,” eLABIn- 
ventory”), Literaturverwaltung (z.B. Zotero, Mendeley”), Dokumenterstellung 


12 Vgl. z.B. Antonopoulos und Gillam 2017; Repschläger, Pannicke und Zarnekow 2010. 

13 Vgl. z.B. elektronische Laborbücher s. Adam und Lindstädt 2019; forschungsdaten.org o. J.; 
BEXIS 2 o.J. 

14 S. https://openrefine.org/. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 

15 Vgl. z.B. talend.com o.J. 


16 S. https://owncloud.org/. 

17 S. https://www.microsoft.com/de-de/microsoft-365/sharepoint/collaboration. 
18 S. https://github.com. 

19 S. https://about.gitlab.com/. 

20 S. https://www.knime.com/knime-analytics-platform. 

21 S. https://taverna.incubator.apache.org/. 

22 S. https://www.quartzy.com/. 

23 S. https://www.elabinventory.com/. 

24 S. https://www.zotero.org/. 

25 S. https://www.mendeley.com/. 
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(z.B. ShareLaTex,?° HedgeDog [ehem. CodiMD]”), virtuelle Meetings (z.B. Jitsi,” 
BigBlueButton”) und Datenanalyse (z. B. Jupyter Notebooks,” Galaxy"). 

Einhergehend mit der standortübergreifenden Datenverarbeitung entsteht der 
Bedarf nach Regelwerken („Data Policies“, Datennutzungsvereinbarungen, für Bei- 
spiele siehe etwa eResearch Alliance o.J.), die Rechte und Pflichten der beteiligten 
Konsortialpartner dokumentieren. Damit diese Regeln alle Anwendungsfalle erfas- 
sen und von allen Partnern konsentiert werden können, sollten sie gemeinsam erar- 
beitet und dynamisch angepasst werden. Eine Auswahl verschiedener individueller 
Setups und Herangehensweisen wurde u.a. in zwei Workshops zu Infrastruktur- 
Teilprojekten vorgestellt.” 


Citizen Science 


Die Beteiligung von Laien-Forschenden bei der Bearbeitung wissenschaftlicher Fra- 
gestellungen gewinnt immer mehr an Bedeutung.” Hierdurch ergeben sich aber 
auch eine Reihe von speziellen Herausforderungen z.B. beim Design von Werkzeu- 
gen für die Datenerhebung, bei der Publikation von wissenschaftlichen Ergebnis- 
sen, die Daten aus Citizen-Science-Ansätzen verwenden oder auch bei der Einord- 
nung von Datensicherheitsaspekten, wie sie z.B. näher von Anhalt-Depies et al. un- 
tersucht und beschrieben wurden.” 


2.2 Virtuelle Forschungsumgebungen 


Virtuelle kollaborative Forschungsumgebungen (VFU) existieren in einer Vielzahl 
von Ausprägungen unter verschiedenen Begrifflichkeiten. Dabei handelt es sich 
häufig um spezifische Werkzeug-Setups für bestimmte Anwendungsfälle zur Unter- 
stützung der Kommunikation und Kollaboration von geographisch verteilten For- 
schenden.” 


26 S. https://www.sharelatex.com/. 

27 S. https://demo.hedgedoc.org/. 

28 S. https://jitsi.org/. 

29 S. https://bigbluebutton.org/. 

30 S. https://www.jupyter.org. 

31 S. https://usegalaxy.org/. 

32 Vgl. Engelhardt 2013; Roertgen et al. 2019; bausteine-fdm.de 2020. 
33 Für Definitionen vgl. Eitzel et al. 2017; Rowbotham et al. 2019. 

34 Vgl. Anhalt-Depies et al. 2019. 

35 Vgl. Ahmed, Poole und Trudeau 2018, 688; Kommission Zukunft der Informationsinfrastruktur 
2011, B74-B81; Candela, Castelli und Pagano 2013. 
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VFUs lassen sich nach funktionalen sowie nach technologischen Gesichtspunk- 


ten kategorisieren. Betrachtet man das organisatorische Setup und die wissen- 
schaftlichen Funktionen, lassen sich vier Typen von VFUs mit einem Forschungsfo- 
kus identifizieren:”° 


Distributive Research Center (DRS): eine Umgebung, in der Expertise sowie per- 
sonelle und andere Ressourcen rund um ein Forschungsthema zusammenge- 
fiihrt werden und die die Bearbeitung entsprechender Projekte unterstiitzt; 
Shared Instruments (SI): ermöglicht Remote-Zugang zu Großinstrumenten wie 
bspw. Teleskopen; 

Community Data Systems (CDS): eine Umgebung, die von einer dispersen Com- 
munity als Repositorium fiir die Sammlung von Daten und Informationen ge- 
nutzt und gepflegt wird; 

Open Community Contribution Systems (OCCS): führt die Einzelbeiträge einer 
großen Zahl räumlich verstreuter Individuen bei der Bearbeitung eines konkre- 
ten gemeinsamen Unterfangens, etwa der Bestimmung von Proteinfaltungen, 
zusammen. 


Basierend auf einer Untersuchung der eingesetzten Informationstechnologien von 
164 VFUs bildeten Ahmed, Poole und Trudeau die folgenden fünf Kategorien:?” 


Webpage: Der Schwerpunkt liegt hier auf Technologien, die die Publikation 
und Kommunikation unterstützen. VFUs dieser Art dienen primär als Online- 
Präsenz oder Portal zu weiteren Ressourcen (z.B. Daten, Tools oder Publikatio- 
nen). Als Beispiel nennen die Autorinnen und Autoren das LIPID MAPS Lipido- 
mics Gateway.” 

Analytic Community: Dieser Typ von VFU vereinigt Rechenkapazität, Publikati- 
ons- und Kommunikationstechnologien. Er umfasst i.d.R. ein Datenrepositori- 
um und stellt Funktionen und Kapazitäten zur Datenanalyse und -annotation 
zur Verfügung. Genutzt wird er von einer Gemeinschaft von Wissenschaftlerin- 
nen und Wissenschaftlern, die diese Ressourcen für ihre Forschung nutzen und 
zugleich ein starkes Interesse am Austausch von Ergebnissen und Publikatio- 
nen sowie der Interaktion mit anderen Nutzerinnen und Nutzern haben. Als Bei- 
spiel führen Ahmed, Poole und Trudeau Archaeotools” an. 

Moderate Scientific Support/Intense Scientific Support VRE: Diese beiden sich in 
ihrer technischen Konfiguration stark gleichenden Typen unterscheiden sich 
primar in der Anzahl der integrierten Informations- und Kommunikationstech- 
nologien. Der Schwerpunkt liegt bei ihnen auf Instrumenten, Daten und Re- 


36 Vgl. Ahmed, Poole und Trudeau 2018, 689-691. 

37 Vgl. Ahmed, Poole und Trudeau 2018, 693-698. 

38 S. http://www.lipidmaps.org/. 

39 S. https://archaeologydataservice.ac.uk/research/archaeotools.xhtml. 
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chenressourcen. Zusätzlich werden in geringem Grad Funktionalitäten fiir Pu- 
blikation und Kommunikation bereitgestellt. Ein gutes Beispiel für eine Modera- 
te-Scientific-Support-VFU ist laut Ahmed, Poole und Trudeau NEESGrid,”° für 
eine Intense-Scientific-Support-VFU SEEK.“ 

—  Archetypical collaboratory: Diese Kategorie von VFUs integriert sowohl in ho- 
hem Maße Instrumente sowie Funktionen zur Datenspeicherung, -archivierung, 
-analyse, -annotation usw. als auch zahlreiche Publikations- und Kommunikati- 
onswerkzeuge und stellt damit eine multidimensionale Umgebung für kollabo- 
rative Forschung bereit, während sie zugleich das Community Building um den 
Forschungsgegenstand herum befördert. Als Beispiel einer VFU dieses Typs ge- 
ben Ahmed, Poole und Trudeau die Cochrane Collaboration an.“ 


2.3 Organisatorischer und regulativer Rahmen 


Ein organisatorischer und regulativer Rahmen, ein sogenanntes „Data Management 
Framework“, auf der Ebene einer Institution oder eines großen Verbundprojektes 
kann dabei helfen, ein einheitliches und effektives Datenmanagement in der gesam- 
ten Institution bzw. dem Projekt zu gewährleisten. Er ermöglicht es, einen Überblick 
über (Teil-)Projekte und in ihnen erhobene Daten zu er- und behalten, die organisa- 
torischen und regulatorischen Rahmenbedingungen für den Umgang mit For- 
schungsdaten sowie die damit zusammenhängenden Aufgaben und Zuständigkei- 
ten zu definieren und die entsprechenden Informationen und Ressourcen zentral 
für alle bereitzustellen.” 

Um einen umfassenden Rahmen zu erarbeiten, der alle notwendigen Aspekte 
abbildet, sollten laut ANDS fünf Bereiche berücksichtigt werden:“* 
- Institutionelle Policies und (standardisierte) Verfahren, 
— Angebote zur Beratung und Unterstützung, 
- IT-Infrastruktur, 
— Metadatenmanagement sowie 
—  Forschungsdatenmanagement. 


Idealerweise werden für jedes dieser Felder Rollen und Zuständigkeiten sowie Poli- 
cies und Standards definiert und die notwendigen Ressourcen (finanziell, personell, 
sonstige Ausstattung) allokiert. Zudem muss dafür Sorge getragen werden, dass die 


40 S. http://www.neesgrid.org/. 
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Beteiligten die notwendige Qualifikation für ihre Aufgaben besitzen oder sich aneig- 
nen (können). 


Relevante Dokumente und Informationen können an einer zentralen Stelle für 


alle zugänglich vorgehalten werden. Zu diesen können, je nach Bedarf, folgende 
zählen:“° 


zentrales Datenverzeichnis, 

institutionelle Erklärung oder Policy zum Datenteilen, 
Beispiel-Datenmanagementpläne, 

Informationen zu institutionellen Richtlinien und Regularien in Bezug auf For- 
schungsdaten, 

Erklärung zu Urheber- und Verwertungsrechten für Forschungsdaten und -er- 
gebnisse, 

Erklärung zur institutionellen Datenmanagement-Infrastruktur und zu Backup- 
Verfahren, 

IT-Sicherheitsrichtlinie für Datenspeicherung, File Sharing und Datenübertra- 
gung, 

Empfehlungen für Standard-Datenformate, 

Policy zum Zurückhalten oder zur Löschung von Daten 

Standards für die Qualitätskontrolle von Datenerhebung und -eingabe, 
Empfehlungen für Digitalisierung und Transkription, 

Empfehlungen für Dateibenennung und Versionskontrolle, 

Projektverzeichnis einschließlich Rollen und Zuständigkeiten, 

Vorlagen für (informierte) Einwilligungserklärungen und Informationen zum 
Datenteilen im Zusammenhang mit sensiblen Daten, 
Vertraulichkeitsvereinbarungen für den Umgang mit sensiblen Daten, 
Informationen zu ethischen Aspekten und Beispielformulare für eine Begutach- 
tung, 

Richtlinien für Anonymisierung und Pseudonymisierung. 


2.4 Datenschutz und Datensicherheit 


Die rechtliche Perspektive beim FDM wird zunehmend wissenschaftlich betrach- 
tet.” Kollaboratives Arbeiten mit Forschungsdaten erfordert in besonderer Weise 
die Berücksichtigung von Aspekten der Datensicherheit bzw. des Datenschutzes. 
Diese Begriffe werden in unterschiedlichen fachlichen, technischen oder rechtli- 


45 Vgl. ANDS 2018, 2. 
46 Vgl. UK Data Service o.J. a. 
47 Vgl. z.B. Hartmann 2019; DATAJUS o.J. 
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chen Kontexten heterogen definiert und verwendet.*® Durch die zunehmende An- 
zahl von fach- und standortübergreifenden Initiativen steigt auch die Komplexität 
von Risikoabschätzungen, um Datenschutz und Datensicherheit praxisnah ausrei- 
chend gewährleisten zu können.“ Bei länderübergreifenden Kooperationen kommt 
durch unterschiedliche Gesetzgebungen gegebenenfalls noch eine weitere Komple- 
xitätsebene hinzu.” 

Zur Abgrenzung der Aspekte, die für den konkreten kollaborativen Anwen- 
dungsfall relevant sind, sollten die entstehenden Daten und zugehörigen Arbeitsab- 
läufe inhaltlich, technisch und rechtlich kategorisiert und evaluiert werden. Des 
Weiteren ist die möglichst konkrete Beschreibung des Zwecks der Umsetzung von 
Maßnahmen zur Erhöhung der Datensicherheit wesentlich, um Aspekte priorisieren 
zu können. 


Sensible Forschungsdaten 


In vielen Forschungskontexten wird mit sensiblen Daten gearbeitet. Die Sensibilität 
kann dabei durch eine Vielzahl verschiedener Hintergründe wie z.B. Personenbe- 
zug, Natur- und Artenschutz, Firmengeheimnisse oder Forschung an Gefahrstoffen 
entstehen. Besonders häufig fallen personenbezogene Daten an. Der Personenbezug 
rangiert dabei zwischen einerseits i.d.R. unkritischen wenigen persönlichen Anga- 
ben zu beteiligten Forschenden an gemeinsamen Projekten und andererseits höchst 
sensitiven Informationen zum ökonomischen oder medizinischen Status von Pro- 
bandinnen bzw. Probanden in Umfragen oder Studien.” Eine Vielzahl an Publika- 
tionen und technischen Ansätzen befasst sich hierbei mit besonders kritischen Sze- 
narien z.B. in der sozialwissenschaftlichen oder klinischen Forschung.” Aber auch 
in einfacheren Setups erscheint die Betrachtung von datenschutzbezogenen Fragen 
sinnvoll”, damit ein abgestimmtes Vorgehen in den Fachcommunities erreicht wer- 
den kann. 


Intellectual Property/Lizenzen 


Insbesondere in standortübergreifenden Forschungskollaborationen sollten abge- 
stimmte Regeln zum geistigen Eigentum (Intellectual Property, IP) und den daraus 


48 Vgl. z.B. Schmidt und Weichert 2012; GDD o.J.; Solove 2006. 

49 Vgl. Stiles and Petrila 2011; Nurmi et al. 2019. 

50 Vgl. Nurmi et al. 2019, 9; Kalberg 2012; Röttgen 2020; Lauber-Rönsberg 2018. 

51 Vgl. Europäische Kommission o. J.; DSGVO 2016, Art. 4. 

52 Vgl. Pommerening et al. 2014; Bauer, Eickmeier und Eckard 2018; Eaton und McNett 2020. 
53 Vgl. z.B. Schallaböck und Grafenstein 2017. 
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resultierenden Konsequenzen zum Daten-Besitztum und -Nutzungsrecht erarbeitet 
werden. Mehrere aktuelle Forschungsprojekte liefern hierbei erste v.a. rechtliche 
Grundlagen, die berücksichtigt werden kénnen.™ Gerade im Hinblick auf Publika- 
tionen, denen gemeinsam erarbeitete Forschungsdaten zugrunde liegen, sind auch 
die Regelungen zur Guten wissenschaftlichen Praxis relevant.” Weiterführende In- 
formationen zu Lizenzmodellen, die die Nachnutzung von Daten regulieren, wurden 
in verschiedenen Projektkontexten zusammengestellt.” 


Technische und organisatorische Aspekte 


In vielen kollaborativen Arbeitsszenarien sind zunächst die einzelnen beteiligten 
Standorte für die technische Sicherheit der primär erhobenen Daten verantwortlich. 
Zusätzlich sollten Konzepte erarbeitet werden, um die auf dieser Basis kollaborativ 
entstehenden Forschungsdaten vor IT-Sicherheitsproblemen (z.B. Datenverlust 
oder -beschädigung, Hackerangriffe) bestmöglich zu schützen. Zunehmend wird in- 
stitutionell per Daten-Policies reguliert, dass erhobene Daten am Erhebungsstandort 
verbleiben bzw. im Falle der Feldforschung am Standort des erhebenden Projektes 
zusammengeführt werden. Diese Vorgabe schließt insbesondere die Nutzung eini- 
ger Drittanbieter-Services aus, die im privaten Bereich weite Verbreitung finden 
(z.B. Dropbox, Google Drive, Microsoft OneDrive). Wenn verfügbar, sollten zertifi- 
zierte Rechenzentren (z. B. ISO 9001, ISO 27001) mit ihren alternativen Serviceange- 
boten auch für die kollaborative Datenhaltung priorisiert werden, um Sicherheitsri- 
siken zu minimieren. 

Den oben genannten Herausforderungen bezüglich personenbezogener oder IP- 
rechtlich geschützter Daten kann durch technisch-organisatorische Lösungsansätze 
z. T. begegnet werden. Hierzu zählen Mechanismen zu Pseudonymisierung und An- 
onymisierung, die es z.B. durch Datenaggregation ermöglichen, mit persönlichen 
Angaben Forschungsfragen aus verschiedenen Fachbereichen zu bearbeiten.” Ein 
weiterer Ansatzpunkt besteht in der differenzierten Zugangskontrolle zu personen- 
bezogenen Daten. Diese kann physikalisch erfolgen, indem zugangsbeschränkte 
und kontrollierte Räume zur Dateneinsicht zur Verfügung gestellt werden.?® Alter- 
nativ können digitale Zugriffsmodelle eingesetzt werden, die im einfacheren Szena- 
rio mit Use- & Access-Rollen oder in sensitiveren Bereichen mit der Zwischenschal- 
tung von fachlich versierten Gremien zur Überwachung der Dateneinsicht und -her- 


54 Vgl. z.B. Kreutzer und Lahmann 2019; Ostendorff und Linke 2019; forschungsdaten.info o. J.; 
open-access.net o. J.; DATAJUS o.J. 

55 Vgl. DFG 2019. 
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ausgabe realisiert werden.” Das Vorgehen kann dabei u. U. die Integration von Da- 
tentreuhanddiensten erforderlich machen.®° Solche Datentreuhandstellen werden 
z.B. eingesetzt, um im Falle personenbezogener Daten Aufgaben der Pseudonymi- 
sierung oder der Anonymisierung wahrzunehmen und die Daten nur pseudonymi- 
siert, anonymisiert oder aggregiert zur Verfügung zu stellen. 


2.5 Datenqualität 


Der Rat für Informationsinfrastrukturen (RfII) hat eine Vielzahl von Herausforderun- 
gen in Bezug auf die Datenqualität identifiziert.°' An dieser Stelle sollen diejenigen 
hervorgehoben werden, die im kollaborativen Kontext besondere Relevanz besitzen. 
Ein Großteil davon steht im Zusammenhang mit der Definition und Anwendung ein- 
heitlicher Regeln und Standards für verschiedene im Verlauf des Forschungsprozes- 
ses anfallende Aktivitäten. Hier ist vor allem eine unvollständige und uneinheitliche 
Dokumentation der Daten sowie des Forschungsprozesses und -kontextes zu nen- 
nen, die der Nachvollziehbarkeit und Reproduzierbarkeit wissenschaftlicher Ergeb- 
nisse entgegensteht. Dies stellt oft schon in der Erhebungsphase ein Problem dar, 
das - sofern nicht gelöst - im weiteren Verlauf, etwa bei der Archivierung und Pu- 
blikation oder auch der Zusammenführung von Daten aus unterschiedlichen Quel- 
len, relevant bleibt. Abhilfe können hier einheitliche Richtlinien und Konventionen, 
z.B. in Bezug auf Metadaten, Dateibenennung und Versionierung, schaffen, die 
sich — so vorhanden - an in der Fachcommunity etablierten Standards orientieren. 
Unterstützend kann auch Dokumentationssoftware, z.B. die oben bereits angespro- 
chenen Elektronischen Laborbücher, eingesetzt werden. Für die Qualitätskontrolle 
und Datenbereinigung sollten außerdem geeignete, einheitliche Kriterien definiert 
werden, die von allen Beteiligten angewendet werden. 

Eine weitere Herausforderung, auf die der RfII hinweist, sind Hard- und Soft- 
wareunterschiede, z.T. auch physikalische Umwelteinflüsse, die zu Diskrepanzen 
in Verarbeitungsprozessen und Ergebnissen und mithin zu Problemen bei der Re- 
produzierbarkeit führen können. Beim Einsatz von Software können zudem Bedien- 
fehler wie auch eine ungeeignete oder ungenügend dokumentierte Parametrisie- 
rung eine Minderung der Datenqualität bedingen. Für viele dieser Probleme gibt es 
derzeit noch keine ideale Lösung, durch verbesserte Dokumentation können sie je- 
doch immerhin transparent gemacht werden. Auch der Einsatz quelloffener, frei 
verfügbarer Software kann in diesem Zusammenhang hilfreich sein. 
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Weitere, vom RfII angesprochene relevante Aspekte beziehen sich auf die Klä- 
rung der Verfügungsrechte über Daten sowie die Definition und eindeutige Zuwei- 
sung von Rollen und Aufgaben, die z.B. bereits in der Planungsphase im Rahmen 
der Erstellung eines Datenmanagementplans erfolgen kann. 


2.6 Softwareentwicklung 


Schon lange sind in der Softwareentwicklung digitale Werkzeuge üblich, um effizi- 
ent und zeitgleich im Team Produkte weiterentwickeln zu können. Einige Open- 
Source-Projekte werden dabei von einer weltweiten Community von Entwicklerin- 
nen bzw. Entwicklern diskutiert und vorangetrieben. Hierzu zählen auch viele 
Werkzeuge, die für das Projektmanagement oder das Arbeiten mit (Forschungs-)Da- 
ten genutzt werden können.‘ 

Zunehmend an Bedeutung gewinnen in der Softwareentwicklung die Aspekte 
der Reproduzierbarkeit°* und Nachhaltigkeit („software sustainability“) und der 
Agilität.°° Beide Schwerpunkte adressieren die steigenden Anforderungen, in hete- 
rogenen und dynamischen Teamzusammensetzungen auf Bedarfe durch die sich 
schnell wandelnden wissenschaftlichen Herangehensweisen reagieren zu können 
und die daraus resultierenden Softwarelösungen langlebig und reproduzierbar zu 
dokumentieren. 

Als Entwicklungsumgebung, Versionierungssystem oder Code-Repositorium ge- 
nutzte Applikationen basieren oft auf Lösungen wie Github, Gitlab oder Subversi- 
on.° In solchen Softwareprojektmanagement-Umgebungen kann Programmiercode 
verwaltet und versioniert, aber auch ausführlich dokumentiert und veröffentlicht 
werden.°® 

Die „Task Group Forschungssoftware“ des Arbeitskreises Open Science in der 
Helmholtz Gemeinschaft hat kürzlich eine Muster-Richtlinie für nachhaltige For- 
schungssoftware herausgegeben, die wichtige Aspekte zum FAIRen Umgang mit 
Softwareentwicklungen zusammengestellt und als Vorlage für andere Institutionen 
genutzt werden kann.‘? 
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Weitere Informationen tiber Netzwerke von Forschungssoftware-Communities 
können z.B. auf den Webseiten des „EURISE Network“? und der „Research Soft- 
ware Alliance“’! gefunden werden. 


3 Praxistransfer 


Bereits durch die „Kommission Zukunft der Informationsinfrastruktur“ wurde erar- 
beitet, dass Flexibilität ein essentielles Charakteristikum von kollaborativen For- 
schungsinfrastrukturen für deren Nutzbarkeit zum effizienten Erkenntnisgewinn 
ist.” In der Folge betonte auch der auf Basis der Kommissionsarbeit begründete Rat 
für Informationsinfrastrukturen die Bedeutung der Vielfalt bei der Implementierung 
von Strukturen und Prozessen im FDM.” Für den Praxistransfer der beschriebenen 
Aspekte zum kollaborativen Arbeiten mit Daten ergibt sich daraus die Herausforde- 
rung, dass konkrete Umsetzungsschritte spezifisch für jedes Forschungsszenario er- 
arbeitet und adaptiert werden müssen. 

Eine wesentliche Rolle spielt dabei eine möglichst effiziente Kommunikation 
zwischen den Beteiligten innerhalb eines Konsortiums einerseits und zwischen In- 
frastruktur-Entwickelnden bzw. -anbietern und den forschenden Nutzerinnen und 
Nutzern andererseits. Hilfreich ist darüber hinaus die Kommunikation und Netz- 
werkbildung zwischen Forschungsverbünden am eigenen und mit anderen Wissen- 
schaftsstandorten. 

Für die praktisch-technische Umsetzung einer kollaborativen Forschungsinfra- 
struktur können vier Komplexitätsebenen betrachtet und genutzt werden, die einen 
steigenden Grad an Aufwand und benötigter Expertise, aber auch an verbesserter 
Adaption an spezifische Herausforderungen bedeuten. 


Integration von Services, Werkzeugen und anderen Vorlagen, die ad hoc eingesetzt 
werden können 


Insbesondere Webressourcen können häufig mit geringem Aufwand in Forschungs- 
prozesse integriert werden. Beispielsweise können Forschungsdesign, Projektstruk- 
turen, Workflows und Rollenverteilungen in Webportalen wie dem Open Science 
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Framework” oder FAIRDOMHub” gepflegt und veröffentlicht werden. Forschungs- 
daten können auch in weiteren öffentlichen Repositorien — lokal oder übergreifend — 
hinterlegt und somit ideal in kollaborativen Umgebungen ausgetauscht sowie ein- 
deutig zitiert werden (z.B. Zenodo, GRO.data’°). Einige z. T. kommerzielle Anbieter 
ermöglichen auch den direkten Einsatz („software as a service“) von elektronischen 
Laborbüchern für die primäre Dokumentation der Forschungsarbeit (z.B. LabArchi- 
ves,” RSpace’®). Zur vereinfachten Kommunikation können Videokonferenzsysteme 
oder Chat-Dienste (z.B. Rocket.Chat’?) externer Anbieter genutzt werden. Ublicher- 
weise werden solche Dienste auch von den lokalen IT-Serviceanbietern bereitge- 
stellt. Probleme in der Anwendung können sich in dieser Komplexitätsebene z.B. 
aus den geringen Adaptionsmöglichkeiten und der Datenhaltung auf externen Ser- 
vern ergeben. 


Individuelle Nachnutzung bzw. Installation oder Einbindung von virtualisierten 
Services, Werkzeugen und anderen Vorlagen 


Viele FDM-Werkzeuge werden inzwischen als virtualisierte Systeme zur Nachnut- 
zung angeboten. Ein weit verbreitetes Format ist dabei die Bereitstellung als Do- 
cker-Container. Die Virtualisierung vereinfacht die initiale Implementierung, da ver- 
tiefte Kenntnisse über Abhängigkeiten von Komponenten der Systeme zunächst 
nicht erforderlich sind und die Werkzeuge für spezifische Adaptionen leichter ange- 
passt werden können. Der Einsatz solcher Umgebungen in kollaborativen Szenarien 
erfordert ein größeres Maß an IT- und werkzeugspezifischer Expertise, um eine effi- 
ziente und sichere Implementierung gewährleisten zu können. I.d.R. wird dafür die 
Zusammenarbeit mit einem professionellen Rechenzentrum unerlässlich sein. Bei- 
spiele für die Verfügbarkeit von virtualisierten Services sind Open-Source-Projekte 
wie Jupyter Notebooks zur reproduzierbaren Dokumentation von Datenanalyse-Al- 
gorithmen, Dataverse als Forschungsdaten-Repositorium,°° FEniCS* für die wissen- 
schaftliche Modellierung oder das Webportal menoci* für die Repräsentation bio- 
medizinischer Forschungsdaten. 
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Individuelle Nachnutzung bzw. Installation oder Einbindung von Services, 
Werkzeugen und anderen Vorlagen mit Hilfe von Installationsanleitungen der 
Entwickelnden 


Höherer Aufwand ist notwendig, um FDM-Werkzeuge zu implementieren, die bisher 
nicht in virtualisierter Form zur Verfügung gestellt werden. Insbesondere bei kom- 
plexen Systemen, die eine Vielzahl an Abhängigkeiten zwischen benötigten Res- 
sourcen beinhalten, sind vertiefte IT-Kenntnisse und Erfahrungen mit den jeweili- 
gen Systemen erforderlich, um einen störungsfreien Einsatz zu ermöglichen. 
Beispiele in dieser Kategorie sind das Daten-Portal ckan,®? das System SADE fiir Di- 
gitale Editionen™ oder die Datenerfassungsumgebung BExIS.® 


Neuentwicklung eigener Services, Werkzeuge oder Prozesse, die sich an 
Erfahrungen von anderen Standorten/Projektszenarien orientieren 


Wenn bereits bestehende FDM-Systeme in ihrer Funktionalität nicht genügen, um 
spezifischen Anforderungen an das kollaborative Forschungsszenario zu begegnen, 
ist es gegebenenfalls sinnvoll, Eigenentwicklungen zu designen. Üblicherweise ori- 
entieren sich diese Neuentwicklungen an Erfahrungen aus ähnlichen Projekthinter- 
gründen und bauen auf diesem Vorwissen auf. Für diese Herangehensweise ist ein 
hoher Aufwand an Ressourcen erforderlich, um das Ziel spezifischer Funktionalität 
tatsächlich erreichen zu können. Beispiele sind das Drupal-basierte Fachrepositori- 
um publisso® des Informationszentrums Lebenswissenschaften,®” die geowissen- 
schaftlichen Projektdatenbanken von SFB/TR 32,°® SFB 1211°° und SFB/TRR 228% 
oder EXMARaLDA? als ein System für das computergestützte Arbeiten mit (vor al- 
lem) mündlichen Korpora. 

Best-Practice-Beispiele aus DFG-geförderten Sonderforschungsbereichen wur- 
den u.a. in einem Workshop vorgestellt und dokumentiert.?? Zwei weitere Anwen- 
dungsbeispiele, exemplarisch aus den Geowissenschaften und der Medizin, geben 
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Einblicke in konkrete Implementierungsschritte für große kollaborative Forschungs- 
verbünde. 


Implementierungsschritte für große kollaborative Forschungsverbünde: Anwen- 
dungsbeispiel Geowissenschaften 


Von 2007 an wurden im SFB/Transregio 32 („Muster und Strukturen in Boden-Pflan- 
zen-Atmosphären-Systemen: Erfassung, Modellierung und Datenassimilation“) For- 
schungsfragen mit geowissenschaftlichem Fokus kollaborativ bearbeitet. Die entwi- 
ckelten Infrastrukturen werden in den nachfolgenden Verbünden SFB 1211 
(„Evolution der Erde und des Lebens unter extremer Trockenheit“) und SFB/Trans- 
regio 228 („Zukunft im ländlichen Afrika: Zukunft-Machen und sozial-ökologische 
Transformation“) nachgenutzt und erweitert.” Alle Verbünde führen in einer eigen- 
entwickelten Projektdatenbank erhobene Forschungsdaten zusammen, reichern sie 
dabei mit standardisierten Metadaten” an und ermöglichen die Zitierfähigkeit von 
Datensätzen über Digital Object Identifier (DOI). Suchfunktionalität steht in Form 
von Suchmasken und Listen aber auch räumlich (kartenbasiert) zur Verfügung. Die 
FDM-Systeme wurden in Zusammenarbeit mit dem Regionalen Rechenzentrum 
(RRZK) der Universität zu Köln aufgebaut und werden dort physisch gehostet, damit 
auch die langfristige nachhaltige Verfügbarkeit und damit die Wiederverwendbar- 
keit aller Projektdaten über die Projektförderung hinaus sichergestellt bleibt.” 


Implementierungsschritte für große kollaborative Forschungsverbünde: 
Anwendungsbeispiel Kardiologische Grundlagenforschung 


Im klinischen Sonderforschungsbereich 1002 („Modulatorische Einheiten bei Herz- 
insuffizienz“) wird seit 2012 eine integrierte und langfristig verfügbare Forschungs- 
datenplattform” in enger Zusammenarbeit mit den beteiligten Forschenden und auf 
Basis des Datenmanagementportals menoci?” entwickelt. Mit dem Ziel der verein- 
fachten Nachnutzung („FAlRification“) der im SFB 1002 generierten Forschungsda- 
ten werden diese zentral und digital erfasst, strukturiert und standardisiert. Techni- 
sche Schwerpunkte bilden dabei die Integration von Community-Standards, die Be- 
reitstellung zitierfähiger Datensätze durch die Verwendung von Persistenten 


93 Vgl. Curdt et al. 2019. 

94 Vgl. Curdt 2014; Curdt 2016. 

95 Vgl. Curdt und Hoffmeister 2015. 

96 S. https://sfb1002.med.uni-goettingen.de/production/. 
97 Vgl. Suhr et al. 2020. 


470 — Claudia Engelhardt und Harald Kusch 


Identifikatoren (PID) und ihre verbesserte Integration. Zusätzlich nutzen einige Ar- 
beitsgruppen des Konsortiums für die primäre Labordaten-Dokumentation ein elek- 
tronisches Laborbuch und haben hierdurch unterschiedlich weitreichend die pa- 
pierbasierte Dokumentation abgelöst. Klinische Daten, die im Rahmen dieses Kon- 
sortiums erhoben werden, werden in einer distinkten digitalen Infrastruktur 
verwaltet. Dies erfolgt in Anlehnung an Entwicklungen für das Datenmanagement 
im Deutschen Zentrum für Herz-Kreislauf-Forschung e.V.?® Eine schriftliche Verein- 
barung („Data Policy“) über die gemeinsame Datennutzung wurde inzwischen in 
der zweiten Version erarbeitet und von allen Projektleitenden unterzeichnet. Teile 
der entwickelten Infrastrukturen und Prozesse werden bereits in weiteren Konsorti- 
en nachgenutzt sowie spezifisch erweitert (z. B. SFB 1190 und SFB 1286). 
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5.4 Datenvisualisierung 


Abstract: Die visuelle Projektion von heterogenen (z. B. Forschungs-)Daten auf einer 
2-dimensionalen Fläche, wie etwa einem Bildschirm, wird als Datenvisualisierung 
bezeichnet. Datenvisualisierung ist ein Oberbegriff fiir verschiedene Arten der visu- 
ellen Projektion. In diesem Kapitel wird zunächst der Begriff definiert und abge- 
grenzt. Der Fokus des Kapitels liegt auf Informationsvisualisierung und Visual Ana- 
lytics. In diesem Kontext wird der Prozess der visuellen Transformation vorgestellt. 
Es soll als Grundlage für eine wissenschaftlich valide Generierung von Visualisie- 
rungen dienen, die auch visuelle Aufgaben umfassen. Anwendungsszenarien stel- 
len den Mehrwert der hier vorgestellten Konzepte in der Praxis vor. Der wissen- 
schaftliche Beitrag liegt in einer formalen Definition des visuellen Mappings. 


Einleitung 


Datenvisualisierung umfasst jegliche Art der visuellen Repräsentation von digitalen 
Daten in computerbasierten Systemen. Auch wenn sogenannte Infografiken nicht 
immer eine computerbasierte Projektion aufweisen, können diese ebenfalls der Da- 
tenvisualisierung zugeordnet werden. Somit ist Datenvisualisierung ein Oberbegriff 
für die visuelle Projektion von Daten auf einer 2-dimensionalen Ebene, auch wenn 
die Darstellung einen 3-dimensionalen Raum simuliert. Für die Klassifikation von 
Datenvisualisierung sind zum einen die zugrundeliegenden Daten und die Art der 
Projektion von Bedeutung. Eine Projektion eines Realweltobjekts, wie etwa des 
menschlichen Herzens mittels Computertomographie, ist eine virtuelle Darstellung, 
die oft als „Scientific Visualization“ bezeichnet wird.' Das Ziel hierbei ist durch com- 
puterbasierte grafische Simulationen neue oder unbekannte Erkenntnisse über ei- 
nen bestimmten meist wissenschaftlichen Sachverhalt zu erlangen.? Werden dage- 
gen abstrakte Daten visualisiert, etwa Text, Bilder, Ontologien etc., spricht man im 
Allgemeinen von „Informationsvisualisierung“.’ Der bedeutende Unterschied liegt 
nicht nur in den Daten, die keine reine Realweltobjekte mehr sind, sondern auch in 
der Art der visuellen Projektion. Sie visualisiert abstrakte Daten unter besonderer 
Berücksichtigung der menschlichen Kognition und Wahrnehmung und ermöglicht 
per Definition menschliche Interaktionen mit der visuellen Repräsentation, um die 


1 Vgl. West 1999, 15. 
2 Vgl. Earnshaw und Wiseman 1992, 1-7. 
3 Vgl. Card, Mackinlay und Shneiderman 1999, 7. 


8 Open Access. © 2021 Kawa Nazemi, Lukas Kaupp, Dirk Burkhardt und Nicola Below, publiziert von De Gruyter. 
CODA Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110657807-026 
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Kognition zu stärken, neue Erkenntnisse aus den Daten zu erhalten und diverse 
analytische Aufgaben durchzufiihren. Die Visualisierung abstrakter Daten kann 
weiter klassifiziert werden, etwa unter Beriicksichtigung des Grades der menschli- 
chen bzw. der maschinellen Verarbeitung der visuellen Transformation bzw. der 
grafischen Projektion. Eine solche Klassifikation wurde von Kohlhammer et al. auf- 
gestellt.‘ Diese unterscheiden zwischen Information Design (Infografik), Informati- 
onsvisualisierung, Semantik Visualisierung, Visual Analytics und den meist nicht- 
visuellen „Knowledge Discovery in Databases“. 


y / / 
R d 7 d X / 
Information | Information! Visual | 


Knowledge 
A . Sire . discovery in 
design | visualization\ analytics \ y 
\ — \ | databases 


A d 
4 Semantics 


visualization 


Abb. 1: Visualisierungsklassifikation nach Kohlhammer et al.” 


Dieses Kapitel geht auf Informationsvisualisierung und somit auch auf Visual Ana- 
lytics ein, die allein aufgrund der enormen Menge an Daten eine essentielle Rolle 
spielen. Forschungsdaten werden meist genau mit diesen Methoden der Datenvi- 
sualisierung verarbeitet und dargestellt. Zunächst wird eine kurze Abgrenzung und 
Definition der Informationsvisualisierung vorgestellt mit dem Ziel Informationsvi- 
sualisierung und Visual Analytics besser differenzieren zu können. Anschließend 
werden die Kernaspekte, wie etwa Daten und Datenklassifikation, visuelle Reprä- 
sentation und visuelle Aufgaben eingeführt. Diese sollen dazu befähigen, ein grund- 
legendes Verständnis zur Erzeugung von Informationsvisualisierungen zu erlangen. 
Im weiteren Verlauf werden Anwendungsbeispiele für verschiedene Szenarien gege- 
ben, um den heterogenen Einsatz der Visualisierungen nachvollziehen zu können. 


4 Vgl. Kohlhammer et al. 2012, 85-87. 
5 Vgl. Kohlhammer et al. 2012, 85. 
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1 Informationsvisualisierung 


Informationsvisualisierung ist die wohl am meisten verbreitete Form der Datenvi- 
sualisierung. Eine klare Abgrenzung wurde bereits 1999 von Card et al. eingefiihrt, 
die Informationsvisualisierung als computer-basierte, interaktive visuelle Repräsen- 
tation von abstrakten Daten zur Stärkung der Kognition definierten‘. Ein wesentli- 
cher Unterschied zur Datenvisualisierung besteht hier in der Einführung des Terms 
abstrakt, der eine offensichtliche räumliche Projektion der Daten auf einer 2-dimen- 
sionalen Fläche ausschließt. Ohne eine solche räumliche Zuordnung, besteht die 
Herausforderung darin, die Daten in eine ausdrucksstarke visuelle Repräsentation 
zu überführen. Die Stärkung der Kognition, definierten sie als Erwerb und Nutzung 
des menschlichen Wissens. Diese soll zu Erkenntnissen (insights) führen, etwa 
durch Erkundung, Analyse, Entscheidungsfindung oder Erläuterung.’ Um diesen 
Prozess zu beschreiben, führten sie das Referenzmodell der Informationsvisualisie- 


rung ein (siehe Abb. 2). 
® 
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č 
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Abb. 2: Referenzmodell der Informationsvisualisierung nach Card et al.® 


Das Referenzmodell sieht eine Transformation von Rohdaten bis hin zu interaktiven 
Visualisierungen vor, die hier als Sichten (Views) dargestellt sind. Das Modell sieht 
drei Transformationsschritte vor. Die Datentransformation überführt die Daten in 
eine für Visualisierung adäquate Form. Hier finden meist lernende und statistische 
Verfahren Einsatz. So können etwa aus unstrukturiertem Text mittels Latent Dirich- 
let Allocation’ Topics extrahiert werden.’° Die Datenqualität ist hierbei entschei- 
dend. Auch die Extraktion von Variablen, die eine aspektorientierte Visualisierung 
erlauben, etwa temporale oder geographische Visualisierungen etc., spielen eine 


6 Vgl. Card, Mackinlay und Shneiderman 1999, 7. 
7 Vgl. Nazemi 2016, 4; Card und Mackinlay 1997, 6. 
8 Vgl. Card, Mackinlay und Shneiderman 1999, 17. 
9 Vgl. Blei, Ng und Jordan 2003, 996-1002. 

10 Vgl. Nazemi et al. 2015b, 6. 
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wesentliche Rolle. Die Datenstruktur ist in der Stufe des visuellen Mappings aus- 
schlaggebend fiir die Erzeugung der visuellen Struktur. Sie stellt die zugrundeliegen- 
den Daten idealerweise unter Beriicksichtigung der Variablen und einer fiir den Men- 
schen gut wahrnehmbaren visuellen Reprasentation dar." Die letzte Transformations- 
stufe ermöglicht die Interaktion der Benutzer mit der graphischen Repräsentation und 
auch mit jedem Zwischenschritt des Modells. Dabei sind die Aufgaben der Benutzer 
von besonderer Bedeutung. So sollen je nach Bedarf auch etwa die Daten verändert 
(reduziert/erweitert) oder alternative visuelle Strukturen ausgewählt werden können. 

Visual Analytics verbindet Informationsvisualisierung mit automatischen Ana- 
lysetechniken, um ein effektives Verständnis, Schlussfolgerung und Entscheidungs- 
findung zu erméglichen.” Demnach erlaubt es im direkten Vergleich zu Informati- 
onsvisualisierung auch die Interaktion mit den Transformationsschritten und wird 
definiert als die Wissenschaft der analytischen Schlussfolgerung durch interaktive 
Visualisierungen.” Keim et al. haben dazu ein Referenzmodell'* erstellt, das über 
die Jahre verschiedene Revisionen und Erweiterungen je nach Anwendungsfall er- 
hielt.” Eine klare Unterscheidung zur Informationsvisualisierung kann demnach 
durch (1) die Ziele, die sich auf analytische Aufgaben fokussieren, (2) eine direkte 
Kopplung der Methoden der automatischen Analyse und Datenmodellierung und 
(3) die Visualisierung sehr großer Datenmengen entstehen. 

Zusammenfassend ist festzustellen, dass drei wesentliche Aspekte das Design 
und die Entwicklung von Informationsvisualisierungen besonders beeinflussen: (1) 
Daten sind von besonderer Bedeutung, denn diese sind die Grundlage zur Wahl der 
visuellen Struktur und der visuellen Variablen, etwa Farbe oder Größe, (2) die Vi- 
sualisierung selbst, die im Idealfall eine einfache Interpretation der Daten ermög- 
licht, und (3) die zu lösenden Aufgaben, die die Wahl der Visualisierung stark be- 
einflussen. 


2 Daten und Datenklassifikation 


Der Ausgangspunkt jeglicher Visualisierungen sind die zugrundeliegenden Daten. '® 
Dabei kann zwischen Datentyp, Daten-Dimensionalität und Art der Daten unter- 
schieden werden (siehe Abb. 3). 


11 Vgl. Nazemi 2016, 111-114. 

12 Vgl. Keim 2010, 7. 

13 Vgl. Thomas und Cook 2005, 4. 

14 Vgl. Keim 2010, 10. 

15 Vgl. Stoffel et al. 2014, 1604; Nazemi 2018, 187; El-Assady et al. 2020, 1002. 

16 Vgl. Keim 2010, 3; Keim 2001, 1-5; Card und Mackinlay 1997, 1; Card, Mackinlay und Shneider- 
man 1999, 3. 
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Abb. 3: Schematische Darstellung der Zusammenhänge zwischen verschiedenen Datentypen, der 
Dimensionalität und Datenarten in Beziehung zu Rohdaten 
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Datentypen beziehen sich darauf, ob in den Daten eine natürliche Ordnung der ex- 

trahierten oder bereits vorhandenen Variablen vorliegt, ob sie mit lexikalischen, se- 

mantischen etc. Transformationen generiert werden können oder ob eine solche 

Ordnung nicht vorhanden und möglich ist. In der Informationsvisualisierung wer- 

den folgende Datentypen unterschieden:” 

- Nominal: Daten ohne Ordnung (Operatoren: = und +) 

- Ordinal: Daten besitzen eine natürliche Ordnung (Operatoren: < und >) 

- Quantitativ: Numerische Werte mit natürlicher Ordnung und der Möglichkeit 
der arithmetischen Rechenoperationen (Operatoren: +, -, *, /) 


Datentypen, die keine natürliche Ordnung besitzen, sind nominal." Sie dienen zur 
Unterscheidung von Entitäten z.B. in Form von Kategorien oder Namen. Dabei soll 
beachtet werden, dass Hilfsvariablen und statistische Verfahren dazu dienen kön- 
nen eine Ordnung zu schaffen, etwa eine lexikalische Ordnung für Namen oder die 
physikalische Ordnung der Farben. Datentypen, die eine natürliche Ordnung besit- 
zen, sind ordinal, etwa eine kategorisierte Tagestemperatur in heiß, warm und 
kalt. Dabei können ordinale Datentypen, binär (0 und 1), diskret oder kontinuierlich 


17 Vgl. Card und Mackinlay 1997, 1; Card, Mackinlay und Shneiderman 1999, 12. 
18 Vgl. Stevens 1946, 678. 
19 Vgl. Ward, Grinstein und Keim 2010, 46. 
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sein” und können mit den Operatoren < und > in genau einem Vorgänger und ei- 
nem Nachfolger unterteilt werden. Numerische Werte, die eine arithmetische Opera- 
tion zulassen werden generell als quantitativ bezeichnet und weisen ebenfalls eine 
durch die Zahlen gegebene natürlich Ordnung auf. Diese Arten von Daten können 
anhand ihrer Wertigkeit geordnet werden (z.B. natürliche Zahlen). Die Einteilung 
(nominal, ordinal, quanitativ) ist nicht unumstritten,” kann jedoch durch vielfache 
Nutzung und starke Verbreitung in der Informationsvisualisierung als wissenschaft- 
lich akzeptiert angesehen werden. 

Jeder Datensatz wiederum kann mittels der Dimensionalität kategorisiert wer- 
den. So können Datensätze in 1-dimensional, 2-dimensional oder multi-dimensional 
unterschieden werden.” Dabei beziehen sich die Dimensionen auf die Anzahl der 
Variablen in den Daten. 


Tab. 1: Kategorisierung der Daten mittels unterschiedlicher Dimensionen”? 


Daten Dimensionalität 


1-dimensional (univariat) Lineare Datentypen 

2-dimensional (bivariat) Planare Datentypen 

Multi-dimensional (multivariat) Daten mit mehr als drei Dimensionen, auch multivariate Daten 
genannt 


2.1 Eindimensionale Daten 


Eindimensionale Daten können in diskreten Sequenzen, Text, kategorischen Werten 
oder in temporalen und Streaming Daten enthalten sein und verfügen über eine Va- 
riable. Siehe Abb. 4 für eine eindimensionale Ereigniskette mit natürlicher Ordnung 
(gegeben durch die Jahreszahl). Nominale Listen ohne Ordnung sind ebenfalls Teil 
der Daten. Diskrete Strukturen, z.B. Abfolgen - kodierte Gene innerhalb des Ge- 
noms - können ebenfalls eindimensional vorliegen. Die Visualisierung geschieht 
über die relative Position des Gens. Reiner Text ohne Vorverarbeitung ist ebenfalls 
als nominal eindimensional einzustufen. 


20 Vgl. Ward, Grinstein und Keim 2010, 46. 

21 Vgl. Velleman und Wilkinson 1993, 5-7. 

22 Vgl. Shneiderman 1996, 337-338; Ward und Keim 2010, 382; Keim, Panse und Sips 2005, 3-4. 
23 Vgl. Keim, Panse und Sips 2005, 3-4. 
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Ereignis F Ereignis A Ereignis D 
1962 1995 2006 


Abb. 4: Eindimensionale Ereigniskette 


2.2 Zweidimensionale Daten 


Zweidimensionale Daten haben genau zwei Variablen, die miteinander verkniipft 
sind. Dabei wird häufig eine abhängige Variable zu einer unabhängigen Variablen 
in Korrelation gesetzt. Die Werte können z.B. mittels zwei Spalten innerhalb einer 
Tabelle repräsentiert werden. Die Variablen selbst können wiederum ordinal, nomi- 
nal oder quantitativ sein. Typische Beispiele sind temporale Daten, Streaming Daten 
oder räumliche planare Daten (siehe Abb. 3). Zweidimensionale Daten lassen sich 
vereinfacht in X-Y-Plots darstellen. Die Visualisierung 2-dimensionaler Daten gestal- 
tet sich recht einfach, etwa mit Balkendiagrammen oder Line-Charts (siehe Abb. 5). 
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Abb. 5: Zeitreihen als Beispiel zweidimensionaler Datensätze 


2.3 Multidimensionale Daten 


Multidimensionale Datensätze oder auch multivariate Datensätze enthalten drei 
und mehr Variablen. Beispiele finden sich als temporale Daten, Streaming Daten, 
Hierarchien und Graphen oder als räumliche Daten. Beispielsweise existieren inner- 
halb einer Fertigungsstraße hunderte von Sensoren, die synchronisiert Daten erfas- 
sen, etwa Temperaturwerte oder Bewegungen. Das Abfrageergebnis kann hunderte 
Spalten umfassen. Die Variablen der Spalten können wieder ordinal, nominal oder 
quantitative sein. Auch wenn nur drei Dimensionen vorliegen, sollten 3-dimensio- 
nale Projektionen vermieden werden, diese führen oft zu Interpretationsschwierig- 
keiten. Statt der Einführung eines X-Y-Z-Plots kann der Einsatz visueller Variablen 
in X-Y-Plots die Wahrnehmung stark vereinfachen und die Interpretation der Daten 
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erleichtern (siehe Abb. 6). Eine Erhöhung der Anzahl der visuellen Variablen geht 
mit einer Komplexitätssteigerung innerhalb der Visualisierung einher. Multivariate 
Daten mit mehr als drei Dimensionen lassen sich oft sehr gut mit Matrizenvisualisie- 
rungen darstellen. Dabei stehen zur besseren Übersicht jeweils zwei Variablen in 
Korrelation (siehe Abb. 6). Es existieren verschiedene Ansätze der Interaktion mit 
multidimensionalen Visualisierungen,* die die Lösung analytischer Aufgaben er- 
möglichen. 
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Abb. 6: Visualisierung multivariater Daten, links: Visualisierung von vier Dimensionen durch Nut- 
zung von visuellen Variablen. Rechts: Visualisierung von fünf Dimension mit einem Scatterplot-Ma- 
trix nach Viau et al.” 


Die Klassifikation der Daten in Dimensionen wird oft gleichgestellt mit der Datenart- 
klassifikation. So wird oft im Kontext der Datendimensionen auch in Graphen, 
Hierarchien, Text oder Netzwerke unterschieden.” Diese Differenzierung ist für das 
visuelle Mapping von Bedeutung. Liegt etwa eine klare Hierarchie in den Daten vor, 
ist evtl. eine andere Visualisierung besser geeignet. 


3 Visuelles Mapping 


Visuelles Mapping beschreibt die Projektion der zugrundeliegenden Daten auf mög- 
lichst effektive visuelle Repräsentationen. Es bezieht sich auf die Fragestellung 
„wie“ Daten visualisiert werden sollten. Dabei spielen zwei Faktoren der Daten eine 


24 Vgl. Inselberg und Dimsdale 1990, 361-378; Gahegan 1998, 43-56; May und Kohlhammer 2008, 
911-918; May, Davey und Kohlhammer 2010, 985-994; Viau et al. 2010, 1100-1108. 

25 Vgl. Viau et al. 2010, 1100. 

26 Vgl. Keim, Panse und Sips 2005, 2-3. 

27 Vgl. Keim, Panse und Sips 2005, 2-3; Nazemi 2016, 142-143. 
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Schlüsselrolle: (1) die Art der Daten und somit die Dimensionen bzw. etwaige Struk- 
turen in den Daten und (2) die Datentypen, die vereinfacht in nominal, ordinal und 
quantitativ differenziert werden können. Das visuelle Mapping ist somit ein zweistu- 
figer Prozess, das auf die Arbeiten von Bertin zurückgeht”? und erweitert wurde.” 
Dabei wird zunächst die Positionierung der graphischen Objekte auf einer 2-dimen- 
sionalen Ebene je nach Datendimension oder der vorliegenden Struktur vorgenom- 
men (Imposition). Diese Positionierung wird häufig als „Placement“ oder „Layou- 
ting“ bezeichnet.” Das Layouting stellt somit das „Skelett“ einer Visualisierung 
dar. Dabei können bei multivariaten Daten oder komplexen Strukturen Layout- oder 
Placement-Algorithmen durchaus kombiniert werden. Als Beispiel soll hier die in 
Abb. 6 dargestellte Scatterplot-Matrix dienen. Diese ist eine Kombination aus einer 
Matrix-Visualisierung und dem Scatterplot. Diese Layouts können sowohl nebenein- 
ander liegen (juxtaposing Layouts), wie in diesem Fall, aber auch übereinander (su- 
perimposing Layouts). 

Datentypen sind besonders für die Wahl der retinalen bzw. visuellen Variablen 
von großer Bedeutung. Frühe Arbeiten hierzu gehen ebenfalls auf Bertin zurück,” 
die für die unterschiedlichen Datentypen die entsprechenden Variablen bezüglich 
ihrer Eignung ordnen. Dabei ist stets die Position, die durch das Layout definiert 
wird für jeden Datentypen am besten geeignet (siehe Abb. 7). 


besser geeignet Position se Position se Position se 
Länge = Farbdichte eee Farbe ... 
Winkel FE Sättigung ee. Farbdichte .. 
Neigung LA Farbe eee Sättigung ... 
Fläche e@ Länge =| o ean 
Farbdichte ee Winkel Zz. Länge = 
Sättigung ess Neigung A— Winkel 2 
Farbe eso Fläche e@ Neigung x 
weniger geeignet Form ean Form ean Fläche .o 


Abb. 7: Retinale Variablen sortiert nach ihrer Eignung für verschiedene Datentypen (adaptiert nach 
Mackinlay”>) 


28 Vgl. Bertin 1983, 6. 

29 Vgl. Mackinlay 1986, 125; Nazemi 2016, 113-114. 
30 Vgl. Nazemi 2016, 220-223. 

31 Vgl. Nazemi 2016, 55, 222. 

32 Vgl. Bertin 1983, 42-44. 

33 Vgl. Mackinlay 1986, 125. 
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Da die Position fiir alle Datentypen am besten geeignet ist und Bertin™ eine Diffe- 
renzierung zwischen Positionierung (Imposition) und den retinalen Variablen (Im- 
plantation) propagiert hat, wird die Position hier nicht weiter als Bestandteil der re- 
tinalen Variablen betrachtet. Hilfreicher ist eine Differenzierung zwischen Layout 
und Präsentation. Das Layout stellt somit die Positionierung der graphischen Objek- 
te auf dem Bildschirm, deren Relation zum Bildschirm und zueinander dar, wobei 
Präsentation die retinalen Variablen ohne Position enthält. 

Visualisierung in Form des visuellen Mappings kann somit als Kreuzprodukt 
aus Layout und Präsentation beschrieben werden. Es ermöglicht sowohl das Über- 
einanderlegen (superimposing) von visuellen Layouts als auch eine Darstellung ne- 
beneinander (juxtaposing). Das Layout wird anhand der Dimensionalität und der 
Datenstruktur ermittelt. So können beispielsweise bivariate Daten mit Hilfe von 
Scatter-, Line-, Area-, Bar-Charts etc. visualisiert werden. Multivariate Daten können 
z.B. mit Line Plots, Stacked Bars, Sliced River, Stacked River, Theme River etc. dar- 
gestellt werden, vgl. Abb. 8 für eine Auswahl an möglichen Layouts und Präsenta- 
tionen. 
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Abb. 8: Unterteilung des visuellen Layouts als Tupel aus Layout und Präsentation zur gezielten und 
effektiven Gestaltung von Visualisierungen 


34 Vgl. Bertin 1983, 50-52, 79, 189. 
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Die Präsentation setzt sich zusammen aus den retinalen Variablen wie etwa Farb- 
wert, Sättigung, Helligkeit, Größe, Länge, Neigung, Winkel, Form und der Krümmung. 
Eine Visualisierung (V) kann als Kreuzprodukt aus Layout (L) und Präsentation (P) 
wie folgt definiert werden: 


V=LxP 


Somit wird z.B. bei vierdimensionalen Daten, eine vierdimensionale Projektion in 
den zweidimensionalen Raum möglich. In Abb. 6 (links) liegt die Zeit auf der X-Ach- 
se und der Temperaturwert auf der Y-Achse, zusätzlich wird die Luftfeuchtigkeit per 
Größe und die Regenwahrscheinlichkeit per Sättigung dargestellt. Mackinlay präzi- 
sierte die einzelnen Präsentationsmöglichkeiten und ordnete diese nach Genauig- 
keit bzw. Aussagekraft (siehe Abb. 7). 

Dies wird nützlich, um möglichst aussagekräftige Visualisierungen für verschie- 
dene Datentypen zu erstellen. Eine Visualisierung mit der bestmöglichen Aussage- 
kraft für verschiedene Daten der Datentypen D ist somit definiert als: 


V=Lx P= {(li, f(d) liE NALE LAdE D} 


Dabei liefert die Funktion f: D>P eine bestmögliche Präsentation P für einen be- 
stimmten Datentyp D. Gegeben sei als Beispiel ein X-Y-Plot mit einem Datensatz be- 
stehend aus quantitativen, ordinalen und nominalen Daten ([0...99, klein...groß, 
ProduktA...ProduktC]). Die quantitativen und nominalen Daten werden der X, sowie 
der Y-Achse zugeordnet, somit werden die Datenwerten mittels der Position abgebil- 
det, so bleibt für die ordinalen Daten nur noch die Darstellung über die Dichte und 
für die nominalen Daten die Darstellung über verschiedene Farbwerte, um die Aus- 
sagekraft der Visualisierung dieses Beispiels zu maximieren. 


4 Visuelle Aufgaben 


Eine Interaktion durch die Benutzenden mit einer Visualisierung dient der Beant- 
wortung einer bestimmten Frage oder Hypothese. Einer Interaktion liegt dabei eine 
Fragestellung zugrunde, die als zu lösende Aufgabe verstanden werden kann. Diese 
Fragestellung wird auch als visuelle Aufgaben bezeichnet und bezieht sich auf die 
Frage, „warum“ soll etwas auf diese Art visualisiert werden. Erstmalig formalisierte 
Bertin diese Fragestellung.” Bertin konstatierte, eine Frage ist aufgeteilt in den 
Fragentypen (Question Type) und das Abstraktionslevel (Level Of Reading). Die In- 


35 Vgl. Mackinlay 1986, 125. 
36 Vgl. Bertin 1983, 141, 178. 
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formation, die gefunden werden muss, bestimmt der Fragentyp.” Zusätzlich existie- 
ren drei Abstraktionslevel zu jedem Typ: 

- Elementar (Elementary) 

-  Intermediar (Intermediate) 

—  Übergreifend (Overall) 


Elementare Fragen beziehen sich auf einen Zeitpunkt oder einen Datenwert. Bei in- 
termediären Fragen umfasst das Ergebnis eine Gruppe von Daten, jedoch bezieht 
sich die Frage nicht auf den kompletten Datensatz. Wohingegen übergreifenden 
Fragen den kompletten Datensatz betreffen. Dazu zwei Beispiele visueller Aufga- 
ben:?® 

— Wie hoch ist der Preis einer Aktie X an einem bestimmten Datum? 

— Zu welchem Datum wurde ein bestimmter Preis für eine Aktie X erreicht? 


Frage 1 ist eine elementare Frage, da die Frage auf ein Datum bzw. einen Datenwert 
abzielt. Als übergreifend kann Frage 2 bezeichnet werden, da die Frage den kom- 
pletten Datensatz umfasst. Andrienko und Andrienko unterscheiden hier nochmals 
in grundlegende Aufgaben (Elementary Tasks) und zusammenfassende Aufgaben 
(Synoptic Tasks”). Aigner et al. fasst die Erkenntnisse von Andrienko et al. in einer 
Übersicht zusammen (vgl. Abb. 9).“° Grundlegende Aufgaben beziehen sich hier auf 
einen Punkt oder Datenwert. Nachschlagen (Lookup) bezeichnet hier das Suchen 
nach einem bestimmten Datenwert. In der Beziehungssuche (Relation Seeking) wer- 
den Aufgaben zusammengefasst, die eine Relation zwischen den Entitäten offenle- 
gen sollen, während vergleichende Aufgaben (Comparison) die Charakteristiken 
einzelner Datenpunkte oder Gruppen gegenüberstellt. Sowohl das Nachschlagen 
von Werten wie auch das Vergleichen kann sowohl direkt oder invers passieren. 
Dazu gibt Aigner et al. folgendes Beispiel für das Nachschlagen:*! 

— Direkt: What was the price of Google stocks on January 14? 

- Invers: On which day(s) was the lowest stock price for Amazon in 2010? 


37 Vgl. Andrienko und Andrienko 2006, 50. 

38 Vgl. Bertin 1983, 141, 178; Andrienko und Andrienko 2006, 50. 
39 Vgl. Andrienko und Andrienko 2006, 136. 

40 Vgl. Aigner et al. 2011, 72-75. 

41 Vgl. Aigner et al. 2011, 72-75. 
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Visuelle Aufgaben 


Zusammenfassende 
Aufgaben 


Grundlegende 


Aufgaben 


Verbindende 
Aufgaben 


Beschreibende 


Nachschlagen Vergleichen Beziehungssuche Aufgaben 


Abb. 9: Visualization Task Categorization, adaptiert von Aigner et al.42 


Zusammenfassende Aufgaben (Synoptic Tasks) bestehen aus beschreibende Aufga- 
ben (Descriptive Tasks) und verbindende Aufgaben (Connective Tasks). Beschrei- 
bende Aufgaben geben Charakteristika oder Referenzen von Gruppen wieder, wo- 
hingegen verbindende Aufgaben zwei oder mehr Datensätze in Beziehung 
zueinander setzen. Aigner et al. machen hier folgende Beispiele:“? 

-  Beschreibend: What was the trend of Oracle stocks during January? 

- Verbindend: Is the behavior of Nokia stocks influencing the behavior of Moto- 

rola stocks? 

Munzner geht noch einen Schritt weiter und formalisiert die visuelle Aufgabe.“ 
Eine visuelle Aufgabe besteht aus einer Aktion und einem Ziel.“ Munzner führt 
dazu die gruppierenden Aktionen: Analysieren (Analyze), Suchen (Search) und An- 
fragen (Query) ein. Dazu werden zusätzlich die gruppierenden Ziele: alle Daten (All 
Data), Attribute (Attributes), Netzwerkdaten (Network Data) und räumliche Daten 
(Spatial Data) definiert. Die Analyse unterscheidet in vereinnehmende Aktionen, 
wie das Entdecken und Präsentieren, sowie in produzierende Aktionen, wie das An- 
notieren oder die Aufnahme von Daten. In der Suche wird differenziert nach Nach- 
schlagen, Durchsuchen, Lokalisieren und Explorieren. Als Anfrage ist definiert: 
Identifizieren, Vergleichen und Zusammenfassen.“* Als mögliche Ziele auf der Ge- 
samtheit der Daten wird das Erkennen von Trends, Ausreißern oder Features ge- 
nannt. Innerhalb von Attributen können Verteilungen, Extremwerte, Abhängiskei- 
ten, Korrelationen oder Ähnlichkeiten gefunden werden. In Netzwerkdaten können 
Topologien oder Pfade analysiert werden und in räumlichen Daten kann die Darstel- 
lung von Umrissen sinnvoll sein. Das durch Munzner erzeugte Framework“ bietet 


42 Vgl. Aigner et al. 2011, 74. 
43 Vgl. Aigner et al. 2011, 75. 
44 Vgl. Munzner 2014, 43-61. 
45 Vgl. Munzner 2014, 43. 
46 Vgl. Munzner 2014, 54. 
47 Vgl. Munzner 2014, 43. 
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die Möglichkeit der Erweiterung. So können weitere visuelle Aufgaben durch Hinzu- 
fügen von Aktionen und Zielen erzeugt werden und eine visuelle Aufgabe (T) kann 
demnach als Tupel von Aktion (A) und Ziel (Z) definiert werden. 


T =(A,Z) 


Anhand der vereinfachten Darstellung in Abb. 10 können Aufgaben identifiziert 
werden, die der Benutzer mit einer Visualisierung lösen möchte. 


g Aktion © Ziel 
e Analyse: l 
2 alln N= k $ = | / | u, WY! 
Entdecken Präsentieren Vergleichen ' Trends Anomalien Eigenschaften 


le. ee 


Erkennen Kategorisieren Ableiten H 


e Suche: l Verteilung Extrema 


Ziel bekannt Ziel unbekannt 


Position Lookup Browse i 
Bekannt ° o . @) < 

° e ' e-—a A oA 
Position Locate Explore | Abhängigkeit Korrelationen Ähnlichkeiten 
unbekannt . . I 
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Abb. 10: Definition einer visuellen Aufgabe (vereinfacht), mit Erlaubnis adaptiert von Munzner*® 


5 Anwendungsszenarien 


Informationsvisualisierung und Visual Analytics spielen in fast allen Bereichen eine 
essentielle Rolle. Dabei werden nicht nur sehr unterschiedliche Daten herangezo- 
gen, sondern auch sehr heterogene Aufgaben gelöst. Dieser Abschnitt verdeutlicht 
einige der möglichen Anwendungsszenarien zur Verdeutlichung des Mehrwerts sol- 
cher interaktiven Visualisierungen anhand einiger ausgewählter Anwendungsdo- 
mänen. Ein Großteil der Visualisierungen ist mit JavaScript umgesetzt, wobei hier 
Scalable Vector Graphics (SVG) eingesetzt wurden. 


48 Vgl. Munzner 2014, 43. 
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5.1 Visualisierung wissenschaftlicher Literaturdaten 


Durch die massive Open-Access-Bewegung stellen heute bibliothekarische Daten 
eine wichtige Ressource fiir verschiedene Anwendungsbereiche dar. Insbesondere 
mit Methoden des maschinellen Lernens in Kombination mit interaktiven Visualisie- 
rungen, also Visual Analytics, lasst sich nicht nur nach bestimmten Publikationen, 
Personen oder Themen suchen, diese Daten erlauben zudem komplexe analytische 
Aufgaben. Als Beispiel soll die Erkennung von Trends und Technologien dienen. Ba- 
sierend auf das bereits vorgestellte Referenzmodell der Informationsvisualisierung”? 
wurde zunächst ein Transformationsmodell erstellt, das beginnend mit der Extrak- 
tion von Literaturdaten aus dem Web (Web-Mining) bis hin zu interaktiven Visuali- 
sierungen den gesamten Transformationsprozess abdeckt.” Die Analysemöglichkei- 
ten wurden mit lernenden Modellen erweitert und ein neuer Algorithmus zur Tren- 
derkennung entwickelt.’ Dabei wurde auch der Prozess erweitert und an den 
speziellen Fall der Literaturdaten angepasst (vgl. Abb. 11). 


Database & Indexing 


Trend Geographical Temporal Semantic 


Trend Topic Geographical Temporal Semantic 


Abb. 11: Transformationsmodell für wissenschaftliche Literatur nach Nazemi und Burkhardt’? 


49 Vgl. Card, Mackinlay und Shneiderman 1999, 17. 
50 Vgl. Nazemi et al. 2015b, 3. 

51 Vgl. Nazemi und Burkhardt 2019b, 194-200. 

52 Vgl. Nazemi und Burkhardt 2019b, 194. 
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Overview 


Abb. 12: Analyse-, Interaktions- und Visualisierungsmöglichkeiten zur visuellen Trendanalyse wis- 
senschaftlicher Literatur?” 


In Abb. 11 erkennt man, dass die Datenmodellierung aspektorientiert durchgefiihrt 
wurde. Dazu wurden insgesamt fiinf Datenmodelle erstellt. Basierend darauf wurde 
ein Modell der Suche und Exploration eingefiihrt, das die unterschiedlichen Such-, 
Visualisierungs- und Interaktionsmöglichkeiten abbildet.” Basierend auf den Fr- 
kenntnissen aus dem Technologie- und Innovationsmanagement wurden hier Über- 
blicke über den gesamten Datenbestand, über die Resultate einer Suche und weitere 
Explorationsmöglichkeiten eingeführt, die auch das Lösen analytischer Aufgaben 
erlauben (siehe Abb. 12). 

Die visuelle Projektion erlaubt das Lösen sehr unterschiedlicher Aufgaben, die 
über das Recherchieren hinausgehen. Dazu wurden nicht nur sehr unterschiedliche 
Visualisierungen realisiert, die unterschiedliche Aspekte der Daten aufzeigen, wie 
etwa temporale oder semantische Visualisierungen. Es wurden diverse Interaktions- 
konzepte eingeführt, die den Benutzenden erlauben sogenannte „emerging Trends“ 
zu entdecken. Abb. 13 zeigt einige Visualisierungen und auch die Interaktionstech- 
niken. 


53 Vgl. Nazemi und Burkhardt 2019a, 286. 
54 Vgl. Nazemi und Burkhardt 2019a, 285-288. 
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Abb. 13: a) Macro-Level Übersicht der „emerging Trends“ in der gesamten Datenbank; b) temporale 
Ubersicht (Micro-Level) nach einer Suche; c) graphical search: graphische Suche nach eigenen Ter- 
men; d) temporale Ubersicht der Subthemen zu einer Technologie; e) stacked-graph zur temporalen 
Ubersicht extrahierter Themen; f) semantische Visualisierung etwa zur Koautoren-Relation etc.” 


5.2 Visualisierung von Government Data 


Im Rahmen von Open Data Initiativen haben Behörden weltweit begonnen, Teile 
ihre Daten öffentlich bereitzustellen. Speziell im EU-Open-Data-Portal,” in dem 
auch sehr umfassende Daten von EuroStat*’ und EUR-Lex°® einbezogen sind, lassen 


55 Vgl. Nazemi und Burkhardt 2019a, 287-293; Nazemi und Burkhardt 2019b, 196-198. 

56 S. https://data.europa.eu/euodp/. Letztes Abrufdatum der Internet-Dokumente ist der 
15.11.2020. 

57 S. https://ec.europa.eu/eurostat/. 
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sich sehr große Mengen an öffentlichen Daten für diverse Anwendungsmöglichkei- 
ten abfragen und in Systeme einbinden. Zudem ist davon auszugehen, dass die ver- 
öffentlichte Datenmenge aufgrund diverser Transparenzregelungen in allen Berei- 
chen staatlichen Handelns weiter zunehmen.” Dabei gibt es eine Reihe von Anwen- 
dungsmöglichkeiten, darunter solche, die die Transparenz und Partizipation und 
somit die Qualität staatlicher Entscheidungen in beträchtlichem Maße unterstiit- 
zen.°° Grundsätzlich lassen sich diese in die drei aufeinander aufbauenden Stufen 
gliedern: (1) e-Enabling, (2) e-Engaging und (3) e-Empowering,®! wobei die unterste 
Stufe sich im Wesentlichen auf die reine Bereitstellung von Daten beschränkt, um 
eine grundsätzliche Teilhabe von Bürgern und Organisationen zu ermöglichen. 
Wenn basierend auf den bereitgestellten Daten eine Meinungsbildung stattfinden 
soll, etwa im Rahmen von öffentlichen Debatten über eine politische Agenda, so er- 
fordert dies das e-Engaging. Dieses kann gestärkt werden, in dem man Bürgerinnen 
und Bürger sowie Organisationen zusätzlich motiviert, sich an der politischen Agen- 
da und den Debatten zu beteiligen — diese Form bezeichnet man als e-Empowering. 
Insbesondere e-Engaging und e-Empowering liefert in der Regel zusätzliche Daten 
in Form von Stellungnahmen und Meinungen, die ihrerseits Veröffentlichung fin- 
den und im Rahmen der Visual Analytics genutzt werden können. 


Informations- 
beschaffung 


Folgenanalyse 


Abb. 14: Ein vereinfachter Prozess zur Modellierung von politischen Maßnahmen. Alle drei Stufen 
beinhalten heterogene Datenquellen, um die Analyse verschiedener Standpunkte, Meinungen und 
Möglichkeiten zu ermöglichen.°? 


58 S. https://eur-lex.europa.eu. 

59 Ein anschauliches Beispiel bietet etwa der Bereich der europäischen Chemikalienregulierung. 
Das dort seit dem Jahr 2016 eingeführte „lernende System“ sieht einen öffentlichen Zugang zu Stoff- 
daten, Stellungnahmen und Begründungen an diversen Stellen des Entscheidungsprozesses vor. 
Siehe mit weiteren Nachweisen Below 2018. 

60 Siehe Für die Hintergründe, Gestaltungskriterien und Möglichkeiten der Transparenz und Par- 
tizipation am Beispiel der Chemikalienregulierung Below 2018. 

61 Vgl. Macintosh 2004, 2-3; Burkhardt et al. 2014, 4-8. 

62 Vgl. Kohlhammer et al. 2012, 85. 
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Wie bereits erwähnt, ist eine Grundvoraussetzung der Bürgerbeteiligung die Mög- 
lichkeit des Zugriffs auf politische Daten. Speziell in Bezug auf Visualisierungssys- 
teme für politische Daten, lassen sich dabei drei elementare Stufen zum Einsatz von 
visuellen Systemen definieren: (1) Die Informationsbeschaffung, etwa im Zuge der 
Recherche zu bestehenden Problemen oder zu allgemeinen gesellschaftlichen Her- 
ausforderungen, (2) die Politikgestaltung, eine Phase, die konkrete politische Maß- 
nahmen definiert, und (3) die Folgenanalyse, die die Auswirkung von definierten 
politischen Maßnahmen ermittelt und prüft, ob eine Maßnahme das beabsichtigte 
Problem adressiert.°* Abhängig von den aktuellen Analysephasen können unter- 
schiedliche visuell-analytische Methoden sinnvoll sein. 

Bei der Visualisierung von Government Daten lassen sich darüber hinaus for- 
melle Daten von erhobenen bzw. maschinell extrahierten Daten unterscheiden. For- 
melle Daten sind dabei konkrete Beschreibungen etwa von Gesetzen, Maßnahmen 
oder gesellschaftspolitischen Zielen. Viele dieser formellen Daten werden beispiels- 
weise in Amtsblättern oder Bundesanzeigern veröffentlicht und sind Ergebnisse po- 
litischer Entscheidungen. Für solche Daten ist eine Visualisierung oftmals schwierig 
(wie z.B. Abb. 15), da sie vergleichsweise sehr spezifisch und fachbezogen sind. Da- 
her gibt es nur wenige spezialisierte Visualisierungsmöglichkeiten.° Für erhobene 
Daten gibt es in der Regel deutlich mehr Visualisierungen, da sie auf gängigen For- 
men basieren. Den Großteil stellen statistische Daten dar. Zahlen zur Bevölkerungs- 
entwicklung, Migration, Bruttoinlandsprodukt oder diverse Wirtschaftsindikatoren 
lassen sich temporal visualisieren. Aber auch Abhängigkeiten zwischen verschiede- 
nen Daten zu Entitäten wie zu Behörden oder konkreten Ansprechpartnern lassen 
sich teilweise abfragen und visualisieren. 


63 Vgl. Kohlhammer et al. 2012, 84-85. 

64 Ein Beispiel für Folgenanalysen ist die in Deutschland über § 44 Absatz 1 der Gemeinsamen 
Geschäftsordnung der Bundesministerien (GGO) rechtlich vorgeschriebene Gesetzesfolgenabschät- 
zung (GFA). Sie befasst sich im klassischen Sinne mit der Aufgabe, wahrscheinliche Folgen und 
Nebeneffekte von Regelungsvorhaben (prospektive GFA), entstehenden (begleitende GFA) oder be- 
stehenden Gesetzen (retrospektive GFA) zu ermitteln und diese zu beurteilen. Siehe zur Praxis der 
Gesetzesfolgenabschätzung Böhret und Konzendorf, 2001, S. 1 oder das Impact Assessment der Eu- 
ropäischen Union unter https://ec.europa.eu/info/law/law-making-process/planning-and-propo- 
sing-law/impact-assessments_en. Ein konkretes Anwendungsbeispiel findet sich in Below 2018. 
65 Vgl. Burkhardt und Nazemi 2018, 157-160. 
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bestimmbar 


Rechtsbegrif: BDSG 


Anonymisieren ist das Verändern personenbezogener Daten derart, dass 


die Einzelangaben über persönliche oder sachliche Verhältnisse nicht 
mehr odor nur mit einem unverhältrismäßig großen Aufwand an Zei, 
Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen 
Person zugeordnet werden können, 


$3Abs ARDSG 


Abb. 15: Visualisierung von formalen Government Daten, wie z.B. Gesetze, sind oftmals sehr spezi- 
ell und erfordern individuelle Ansätze®® 


5.3 Visualisierung von verknüpftem Wissen 


Ein spezielles Feld nimmt die Verknüpfung von Wissen ein.° Da durch die Ver- 
knüpfung über verschiedene Datenbasen hinweg, die Daten stetig anwachsen, ist 
deren Verwendung sehr weitreichend. Sie eignen sich für eine Vielzahl an Auswer- 
tungen und haben ebenfalls eine Vielzahl an potentiellen Einsatzszenarien. Am be- 
kanntesten ist dabei das Semantic Web, wie es etwa durch DBpedia® umgesetzt ist. 
Dabei handelt es sich bei DBpedia im Wesentlichen um eine semantisch-angerei- 
cherte Variante der Wikipedia,” jedoch wird sie von diversen weiteren Datenban- 
ken ergänzt. Zur Identifikation von Ressourcen über die Datenbanken hinweg wer- 
den sogenannte URI (Abkürzung für: Uniform Resource Identifier) verwendet. Über 
diese URI können Drittquellen Ressourcen um weitere Information ergänzen oder 
sie in Relation zu anderen Ressourcen stellen. Damit entsteht ein großes Informati- 
onsnetz mit heterogenen Daten. Aus diesem Wissensnetz lassen sich verschiedene 
Visualisierungen entwickeln, von analytischen Systemen bis hin zu explorativen 
Systemen (in Abb. 16 dargestellt). 


66 Vgl. Burkhardt und Nazemi 2018, 159-160. 
67 Vgl. Nazemi et al. 2015a, 76-77. 

68 S. https://www.dbpedia.org. 

69 S. https://www.wikipedia.org. 
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Abb. 16: Screenshot von einer Semantic-Web Visualisierungslösung, die sich aus verschiedenen 
Linked-Open Daten Quellen die Ergebnisse visualisiert”? 


5.4 Visualisierung von Produktions- und Manufakturdaten 


Informationsvisualisierung und Visual Analytics in Smart Manufacturing bekommt 
immer mehr Aufmerksamkeit durch die Wissenschaft. Eine hohe Anzahl an Senso- 
ren und die Verknüpfung untereinander führt zu immer größeren Datenmengen. Im 
Fehlerfall präzise und schnell reagieren zu können, kann helfen die Ausfallzeit zu 
vermindern und Kosten einzusparen.” Ein Fehlerfall geht meist im Vorfeld mit Ano- 
malien innerhalb des Datenstroms einher. Diese Anomalien zu erkennen, bevor der 
Fehlerfall eintritt, bildet dabei den Schlüssel zum Erfolg. 

Neuere Visual Analytics Ansätze (vgl. Abb. 17), wie bei Xu et al. vorgestellt,” 
ermöglichen eine Echtzeitüberwachung von gesamten Fertigungsstrecken mit Hilfe 
einer durchdachten Oberfläche. Mit KI-Methoden können schon heute große Daten- 
mengen analysiert werden.” Dabei kann ein Visual Analytics-System aktiv dabei 
unterstützen die richtigen Parameter für eine KI-Anwendung zu setzen und die Er- 
gebnisse zu evaluieren.”* Diese zwei Publikationen stehen stellvertretend für zwei 
Forschungsrichtungen innerhalb des Smart Manufacturing Forschungsfeldes. Zum 


70 Vgl. Nazemi 2016, 284. 

71 Vgl. Kaupp et al. 2017, 83-97; Beez et al. 2018, 163-180. 
72 Vgl. Xu et al. 2017, 291-300. 

73 Vgl. Kaupp et al. 2019, 55-65. 

74 Vgl. Xu et al. 2018, 109-119. 
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einen, von der Maschine ausgehend, den kompletten Fertigungsprozess zu visuali- 
sieren,” zum anderen die verwendeten Methoden transparenter zu gestalten.’° 

Beide setzen damit auf Anomaly Detection oder auch Novelty Detection. Wobei 
im Kontext des Smart Manufacturing große Mengen multivariater Daten meist unsu- 
pervised anomaly detection Algorithmen genutzt werden. Dabei können auch Ver- 
fahren des maschinellen Lernens eingesetzt werden. Ein Datensatz innerhalb des 
maschinellen Lernens besteht dabei immer aus Eingangswerten (Ausgangsituation) 
und der passenden Beschreibung (Label). Bei großen Datenmengen (in der Regel 
mehrere Terabytes) jeden Datensatz händisch zu annotieren, ist dabei sehr zeit- und 
arbeitsintensiv, also schlussendlich kostenintensiv und fehleranfällig. Weshalb hier 
auf unüberwachte (unsupervised) Techniken zurückgegriffen wird. Hier fehlt das 
Label und die Anomalie wird mittels mathematischer Operationen auf Basis der 
Ausgangsituation bestimmt. Ke Xu et al. erzeugen automatische Verbünde (Ensem- 
bles) von vordefinierten Anomalie-Detektions-Algorithmen auf Basis der verschiede- 
nen Datentypen und visualisieren deren Effektivität. So können für bestimmte Da- 
ten die besten Ensembles ausgewählt werden, um innerhalb der großen Menge 
multivariater Daten effektiv Anomalien zu entdecken. Mit dieser Methodik wird der 
Weg von den Daten zur Anomalie transparent gestaltet. 
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Abb. 17: ViDX Visual Diagnostics of Assembly Line Performance in Smart Factories” 


75 Vgl. Xu et al. 2017, 291-300. 
76 Vgl. Xu et al. 2018, 109-119. 
77 Vgl. Xu et al. 2017, 291. 
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Xu et al. zeigen mit ViDX (Visual Diagnostics of Anssembly Line Performance for 
Smart Factories) ein Dashboard, das den Fertigungsprozess visualisiert. Unterteilt ist 
die Oberfläche in fünf Abschnitte; die Station-Map, Histogramme, einen erweiterten 
Marey-Graphen, darüberliegend eine Timeline mit Kalender (vgl. Abb. 17). Mittels Sta- 
tion Map werden (links außen in Abb. 17) der Ablauf und die Verbindungen der einzel- 
nen Stationen visualisiert. Das Histogramm zeigt die Auslastung der Station. Der er- 
weiterte Marey-Graph gibt durch die parallele Betrachtung aller Stationen gleichzeitig 
einen Überblick über Ausfälle (Lücken) oder Verzögerungen (zusammenlaufender 
Graph mit verzögerter Weiterverarbeitung). Anhand der Timeline kann der Ausschuss 
der Fertigungsstraße verglichen und Anomalien können so schneller gefunden wer- 
den. Der Kalender aggregiert dabei die Timeline auf Monatsbasis. Ke Xu et al.’* über- 
wachen in der Historie, also über die Zeit, die physische Anordnung und den Ausstoß 
einer ganze Fabrik. Heutige Fabriken emittieren meist noch komplexere Datensätze, 
welche noch speziellere Visualisierungen in Zukunft nötig machen. Die Datenvisuali- 
sierung bildet damit eine wesentliche Grundlage innerhalb des Smart Manufacturing 
und sorgt dafür sehr komplexe Sachverhalte sinnbringend darzustellen. 


Fazit 


Die steigende Menge an Daten stellt eine große Herausforderung zur Bearbeitung, 
Analyse und Gewinnung neuer Erkenntnisse dar. Methoden der Datenvisualisie- 
rung, insbesondere jene der Informationsvisualisierung und Visual Analytics bieten 
hier Möglichkeiten, aus enorm großen Datenmengen Erkenntnisse zu gewinnen, 
Wissen zu generieren und Muster in den Daten zu erkennen. Dieser Trend hat dazu 
geführt, dass Visual Analytics und Informationsvisualisierung längst zu etablierten 
Methoden der Datenanalyse gehören. Dies beschränkt sich nicht nur auf Forschung, 
sondern erweitert den Nutzerkreis auf Akteure der Wirtschaft. So gibt es diverse 
Werkzeuge von fast allen Softwareanbietern im Bereich der Business Intelligence, 
die teilweise für wissenschaftliche Zwecke frei genutzt werden können. Beispielhaft 
sollen hier die bekanntesten Systeme genannt werden. Microsoft bietet mit Power- 
BI’® eine Lösung an, die vergleichsweise einfach strukturierte Daten mit verschiede- 
nen visuellen Layouts darstellen kann. Dabei können visuelle Variablen auch perso- 
nalisiert werden. Die Nutzung der Desktop-Variante ist kostenlos.” Tableau®® ist 
ebenfalls eine Lösung zur Visualisierung strukturierter Daten. Diese hat ähnliche 
Funktionen wie PowerBI und ist zu Lehr- und Forschungszwecken als Desktop-Vari- 


78 S. https://powerbi.microsoft.com/de-de/. 
79 S. https://powerbi.microsoft.com/de-de/desktop/?WT.mc_id=Blog_Desktop_Update. 
80 S. https://www.tableau.com/de-de. 
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ante kostenlos. Microsoft Azure®! steht an den meisten Hochschulen kostenlos zur 
Verfügung. Der Trend des kombinierten Einsatzes von maschinellen Lernverfahren 
bzw. Methoden der künstlichen Intelligenz und Visualisierungen ist in der For- 
schung zum Zeitpunkt des Erscheinens dieses Buches von enormer Bedeutung und 
wird in Zukunft zu vielen weiteren Entwicklungen im Bereich Visual Analytics füh- 
ren, die auch zur Laufzeit die Auswahl der Methode und Parametrisierungen erlau- 
ben wird. Um die oben genannten Werkzeuge adäquat nutzen zu können, wurden 
in diesem Kapitel kanonische und wissenschaftlich etablierte Aspekte der Visuali- 
sierung dargestellt. 
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Hannes Thiemann, Stephan Kindermann, Michael Lautenschlager 
5.5 Beispiele fiir Data Sharing am Deutschen 
Klimarechenzentrum (DKRZ) 


Abstract: Uber den Erzeugerkreis hinaus werden Klimamodelldaten fiir unterschied- 
liche Zielgruppen bereitgestellt. Die Zielgruppen besitzen spezifische Anforderun- 
gen an Struktur, Qualität und Dokumentation der Daten. Diese Anforderungen wer- 
den in den verschiedenen Data Sharing Angeboten des DKRZ berücksichtigt, wobei 
die FAIR-Prinzipien bei deren Gestaltung eine Richtschnur bilden. Spezielle Heraus- 
forderungen für die Bearbeitung von Klimamodelldaten ergeben sich nicht nur aus 
den sehr großen Datenmengen, sondern auch der Vielzahl der Datenentitäten und 
der interdisziplinären Nachnutzung. Insbesondere die immensen Datenvolumina, 
die oft in Datenanalyseaktivitäten benötigt werden, bergen spezifische Anforderun- 
gen bezüglich der Integration von Prozessierungsdiensten und Data-Sharing-Diens- 
ten. Das Vorgehensmodell und die Angebotspalette des DKRZ lässt sich auf andere 
Diensteanbieter bzw. Forschungsdisziplinen, abhängig von deren spezifischen An- 
forderungen und zur Verfügung stehenden Ressourcen übertragen. 


Einleitung 


Das Deutsche Klimarechenzentrum (DKRZ)! stellt als zentrale Service-Einrichtung 
der Klimaforschung in Deutschland Rechenleistung, Speicherkapazitäten und 
Dienste zur Verfügung, um Klimamodelle zu rechnen und Klimamodelldaten zu 
speichern und auszuwerten. Darüber hinaus unterstützt das DKRZ seine Nutzerin- 
nen und Nutzer organisatorisch und infrastrukturell bei der globalen Verteilung ih- 
rer am DKRZ oder extern produzierten Forschungsdaten. Dadurch wird ein erhebli- 
cher Mehrwert der Daten generiert, da diese erst dann für die gesamte Klima- und 
Erdsystemforschungsgemeinschaft effektiv nachnutzbar sind. 

Die globale Verteilung relevanter Datensätze ist ein Grundbedarf der Erdsystem- 
forschung. Insbesondere in den Klima- und Erdsystemwissenschaften werden groß- 
volumige Datensätze bis in den PetaByte (PB)-Bereich von hohem globalem Interes- 
se an vereinzelten Institutionen erzeugt und teilweise zur Nachnutzung aufbereitet. 
Hierbei handelt es sich z.B. um Beiträge zu international koordinierten Modellver- 
gleichsstudien wie etwa Coupled Model Intercomparison Projects (CMIP)? oder um 


1 S. http://www.dkrz.de. Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
2 S. https://www.wcrp-climate.org/wgcm-cmip; Eyring et al. 2016. 
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Daten, welche aus einer institutionellen Projekt-Initiative heraus entstanden sind, 

zum Beispiel aus dem Max-Planck-Institut Grand-Ensemble.? 

Ein großer Mehrwert dieser Datensätze wird erst durch deren Nachnutzung ge- 
schaffen. Diese wird durch effektives Teilen der Daten mit der Forschungsgemein- 
schaft und der vorausgehenden Verfügbarmachung ermöglicht. Die damit verbun- 
dene lokale Verwaltung und globale Datenverteilung erfordert institutionalisierte 
Kompetenzen im Bereich Datenmanagement, -aufbereitung, -dokumentation und 
Infrastruktur. 

Am DKRZ werden für das Data Sharing verschiedene, anwendungsangepasste 
Dienste angeboten. Je nachdem, ob DKRZ-Nutzende ihre Daten im Rahmen eines 
Projektes, von internationalen Modellvergleichsstudien oder im Zuge einer wissen- 
schaftlichen Publikation global (ver-)teilen möchten, bieten die am DKRZ bereitge- 
stellten Dienste passende Lösungen: 

- DKRZ-Cloud (Swiftbrowser)* - der Cloud-Service zum einfachen und direkten 
Teilen großer Datenmengen. 

- DKRZCMIP Data Pool’ - auf einem zentralen, effizient zugreifbaren Speicherbe- 
reich verwaltete Datenkollektionen, die von übergreifender Bedeutung für die 
Datenverteilung und Datenanalyse sind. 

- Earth System Grid Federation (ESGF)® - die globale Dateninfrastruktur zur föde- 
rierten Verteilung von Modellvergleichsstudien-Daten (CMIPs) oder projektbe- 
zogener Daten von internationalem Interesse, z. B. das MPI-M Grand Ensemble. 

- Digitales Langzeitarchiv World Data Center Climate (LTA WDCC)’ - das zertifi- 
zierte Langzeitarchiv mit DataCite DOI Vergabe,® Erfüllung der FAIR-Data Leitli- 
nien? und Indizierung in globalen Suchdiensten, z. B. Google Data Search, Eu- 
ropean Open Science Cloud (EOSC)/B2FIND," World Data System (WDS).” 


Die Datennutzenden des DKRZ können verschiedenen Gruppen zugeordnet werden, 
die über unterschiedliches Fachwissen zu Struktur, Bearbeitung und Aussagekraft 
von Klimamodelldaten verfügen. Grob lassen sich vier Klassen unterscheiden: 


3 S. https://www.mpimet.mpg.de/en/grand-ensemble; Maher et al. 2019. 

4 S. https://www.dkrz.de/up/de-systems/de-swift. 

5 S. https://www.dkrz.de/up/de-services/de-data-management/de-cmip-data-pool. 
6 S. https://www.dkrz.de/up/de-services/de-data-management/de-esgf-services-1. 
7 S. https://www.dkrz.de/dienste/langzeitarchivierung-1/langzeitarchivierung. 

8 S. https://www.dkrz.de/up/services/data-distribution/data-publication. 

9 S. https://www.dkrz.de/up/de-services/de-data-management/de-LTA/de-fairness. 
10 S. https://toolbox.google.com/datasetsearch. 

11 S. http://b2find.eudat.eu. 

12 S. https://www.icsu-wds.org/services/data-portal. 
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1. Wissenschaftliche Arbeitsgruppe (Erforschung von Prozessen im Klimasystem, 
Quantifizierung von Klimaänderungen) 

- Produzierende und Nutzende von Klimamodellergebnissen sind Teil der Ar- 
beitsgruppe. Detaillierte Kenntnisse zu Forschungsgegenstand sowie Struk- 
tur und Inhalt der einzelnen Datenentitäten sind vorhanden. 

2. Nationale und internationale Wissenschaftsdisziplin (Erforschung des Klima- 
systems) 

- Die Datennutzenden verfügen über detaillierte Kenntnisse des Forschungs- 
gegenstands, während die Kenntnisse zu Struktur und Inhalt der Klimamo- 
delldaten breiter gefächert sind. Informationen zur Bearbeitung der Date- 
nentitäten werden meist benötigt. 

3. Verwandte Wissenschaftsdisziplinen (Erforschung der Auswirkungen von Kli- 
maänderungen oder der Vermeidung von Klimaänderungen) 

— Nutzende aus diesen Disziplinen verfügen meist über keine Detailkenntnis- 
se der Klimamodellierung. Ausführliche Informationen zu Interpretation, 
Inhalt und Bearbeitungsmöglichkeiten von Klimamodelldaten sind erfor- 
derlich. 

4. Politische und gesellschaftliche Entscheidungsträger der Klimapolitik (Ablei- 
tung und Umsetzung von Handlungsoptionen zur Begrenzung von und Anpas- 
sung an Klimaänderungen) 

- Nutzende aus diesem Bereich arbeiten in den seltensten Fällen direkt mit 
den Klimamodelldaten. Sie stützen sich auf die wissenschaftlichen Aussa- 
gen der Klimaforschung zur Ableitung von Handlungsoptionen. 


Diese Anwendungsgebiete sind unterschiedlich weit entfernt vom Forschungsge- 
genstand Klimasystem, in dem die Daten erhoben bzw. erzeugt und zuerst genutzt 
werden. Den abnehmenden Kenntnissen zu Daten, Kontext und Bearbeitungsme- 
thoden muss im Datenmanagement und den verschiedenen Ebenen des Data 
Sharing Rechnung getragen werden. 

Zugriffe auf Daten und Metadaten sind unabhängig vom Dienst generell kosten- 
frei, erfordern jedoch, wenn in den folgenden Kapiteln nicht anders erwähnt, eine 
(kostenfreie) Registrierung. 


1 Die DKRZ-Cloud 


Das DKRZ stellt seinen Nutzerinnen und Nutzern und den von ihnen vertretenen 
Forschungsprojekten eine Cloud-Umgebung in der Größenordnung von mehreren 
PB auf Basis von Openstack Object Storage (Swift)? zur Verfügung. Swift ist sehr 


13 S. https://wiki.openstack.org/wiki/Swift. 
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gut geeignet fiir die Speicherung und Verteilung unstrukturierter Daten. Die Open- 
stack-Software stellt sicher, dass Datenobjekte in mehreren Kopien gespeichert wer- 
den und bietet so einen rudimentären Schutz gegen Datenverlust. Der Zugriff auf 
die Daten ist von unterschiedlichsten Geräten, vom Smartphone, über Notebook 
bis, und das ist im Umfeld des DKRZ entscheidend, hin zum Supercomputer mög- 
lich. Für Nutzende noch ungewohnt ist, dass es sich bei Swift um ein sogenanntes 
Object System handelt, welches eine andere Datenhierarchie bietet als altbewährte 
POSIX-Dateisysteme,'* in denen Metadaten traditionell in Directory- und Filenamen 
kodiert werden. 

Wie einleitend bemerkt, ist Swift insbesondere für die Verteilung unstrukturier- 
ter Daten geeignet. Als Beispiel für ein Projekt auf DKRZ-Swift sei hier das Radiative 
Convective Equilibrium Model Intercomparison Project (RCEMIP) erwähnt. RCEMIP 
ist eine Initiative, die vom World Climate Research Program (WCRP) angestoßen 
wurde. Vergleichbar zu anderen Model Intercomparison Projects (MIPs) nutzt die 
Forschung den Vergleich und die Analyse von Daten mehrerer verschiedener Model- 
le. Für RCEMIP von Vorteil ist die unkomplizierte Handhabung von Nutzeraccounts 
sowohl für den Datenupload als auch -download. Zugriffsrechte können nach in- 
itialer Einrichtung ohne weitere Rücksprache mit dem DKRZ von dem Projekt ver- 
waltet werden. Auch in das eigentliche Datenhandling ist das DKRZ nicht involviert. 
RCEMIP verwendet die DKRZ-Cloud nach Einweisung selbstständig und greift auf 
Hilfe des DKRZ nur bei Schwierigkeiten zurück. Die Einweisung umfasst insbeson- 
dere die begrenzten Möglichkeiten zur Einrichtung von Datenhierarchien, welche 
herkömmlich von MIP-Projekten zur Datenorganisation verwendet werden. Gezwun- 
genermaßen ergänzt RCEMIP das Datenmanagement mit einer ausführlichen Doku- 
mentation zur Datenorganisation, die sowohl Providern als auch Nutzenden das 
Auffinden von Daten ermöglicht. 

Die Cloud selbst ermöglicht im Sinne der FAIR-Prinzipien lediglich das „A“, die 
Accessibility. Alle anderen Aspekte müssen von Projekten gegenwärtig noch mit er- 
sänzenden Dienstleistungen selbst geschaffen werden. Weitere Informationen hier- 
zu unten in den Abschnitten 5 Datenanalyse bzw. Fazit. 


2 Der DKRZ CMIP Datenpool 


Das DKRZ beteiligt sich mit seinen Datenservices im Rahmen der Klimamodellie- 
rung an der internationalen Bereitstellung nationaler Ergebnisse und der Zusam- 
menführung internationaler Beiträge. Im Hinblick auf eine nachfolgende effiziente 


14 S. https://de.wikipedia.org/wiki/Portable_Operating_System_Interface. 
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Datenanalyse sind Homogenisierung und Qualitätskontrolle wichtig, um ein mög- 
lichst einheitliche Datenbasis bereitzustellen. Data Sharing ist im DKRZ-CMIP-Da- 
tenpool in zwei Richtungen von Bedeutung, zum Füllen und im Zugriff. Die ESGF 
Data-Sharing-Infrastruktur wird genutzt, um den Datenpool am DKRZ aufzubauen. 
Große Datenmengen werden von den anderen Datenknoten der ESGF Föderation 
heruntergeladen und am DKRZ zusammengeführt. Zum anderen wird Data Sharing 
genutzt für die DKRZ-interne, nationale und internationale Verteilung der Daten. 

Das aktuell prominente Beispiel internationaler Klimamodellierung ist CMIP6,!° 
das Climate Model Intercomparison Project Generation 6. CMIP6 liefert nicht nur In- 
formationen zur Erforschung des Klimasystems selbst, sondern bildet auch die Da- 
tengrundlage für Veröffentlichungen, die in dem nächsten Statusbericht des inter- 
nationalen Klimarats (Intergovernmental Panel on Climate Change Sixth Assess- 
ment Report, IPCC-AR6”) eingehen. Aufbauend auf den Erfahrungen aus den 
CMIP5-Aktivitäten entwickelte sich in der deutschen Klimaforschungsgemeinschaft 
die Anforderung, die CMIP-Aktivitäten im CMIP6-Zyklus stärker zu koordinieren 
und daher u.a. ein gegenüber dem CMIP5-Prototyp weiter verbessertes CMIP-Daten- 
archiv zu etablieren. Unter Leitung des DKRZ und unter Beteiligung weiterer Ein- 
richtungen unterstützte das BMBF die Koordinierung der CMIP6-Aktivitäten in 
Deutschland. 

Im internationalen Rahmen fügen sich die deutschen Anstrengungen für die 
CMIP6-Dateninfrastruktur in die vom WGCM" Infrastructure Panel (WIP) koordi- 
nierten Aktivitäten ein, deren Ziel es ist, im globalen Rahmen eine robuste und 
nachhaltige Dateninfrastruktur zur Unterstützung der wissenschaftlichen Ziele des 
WGCM zu etablieren. Wesentliches Element dieser Dateninfrastruktur ist die Earth 
System Grid Federation (s. Abschnitt 3). Das DKRZ betreibt einen zentralen Daten- 
knoten in der internationalen Datenföderation ESGF. 


16 S. https://www.wcrp-climate.org/wgcm-cmip/wgcm-cmip6. 
17 S. https://www.ipcc.ch/assessment-report/ar6/. 
18 Working Group on Climate Models. 
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Abb. 1: Der CMIP Data Life Cycle kann grob aufgeteilt werden in Produktionsphase, Datenanalyse in 
der ESGF (Project Phase) und die Bibliometrische Phase mit Langzeitarchivierung im WDCC am 
DKRZ und DataCite Datenpublikation. M1-M4 und D1-D3 bezeichnen die Prüfungen von Metadaten 
(MD) und Daten (D) in den Stufen des Life Cycle. 


Das ESGF Datenarchiv speichert im November 2019 ca. fünf PB an CMIP6 Daten aus 
Berechnungen. Sie beinhalten die sogenannten Diagnostic, Evaluation and Charac- 
terization of Klima (DECK) Experimente, historische Simulationen und 23 CMIP6 
„Endorsed MIPs“,'? die spezielle wissenschaftliche Fragestellungen betrachten. Der- 
zeit liefern 65 Erdsystemmodelle CMIP6-Daten ins ESGF, die Deutsche Forschungs- 
gemeinschaft (DFG) beteiligt sich mit vier Modellen. Für das vollständige CMIP6 Da- 
tenarchiv wird ein Volumen von über zehn PB plus erwartet. 

Die großen Datenmengen für CMIP6 erfordern eine detaillierte Planung des Da- 
tenmanagements, um Datentransfer und doppelte Speicherung zu minimieren. Die 
Anforderungen der deutschen Klimaforschungsgemeinschaft an die Dateninfra- 
struktur im Rahmen von CMIP6 beinhalten Komponenten, von denen einige im 
Data Sharing am DKRZ adressiert werden. 

1. Bereitstellung der Ergebnisse der deutschen Klimamodelle für die internationa- 
le Wissenschaftscommunity. 
2. Schneller, direkter und komfortabler Zugriff auf die Ergebnisse der deutschen 

Klimamodelle für die deutsche Wissenschaftscommunity. 

3. Schneller, direkter und frühzeitiger Zugriff auf relevante Ergebnisse der inter- 
nationalen CMIP6-Klimamodellierungs-Community, wie sie für die deutschen 

Beiträge zum IPCC-AR6 Bericht benötigt werden. 


19 S. https://www.wcrp-climate.org/wgcm-cmip/wgcm-cmip6. 
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4. Bereitstellung von Daten, die von der deutschen CMIP6 Community benötigt 
werden um die neu generierten CMIP6-Datenbestände auszuwerten und zu eva- 
luieren (dies schließt CMIP5-Daten und Beobachtungsdaten mit ein). 

5. Langfristige und sichere Verfügbarkeit der in 1.-4. bezeichneten Daten. 


Die unter 1.-4. bezeichneten Daten werden im DKRZ-CMIP-Datenpool zusammenge- 
führt. Neben den Klimamodelldaten aus CMIP6 enthält der DKRZ-CMIP-Datenpool 
weiteren Daten aus vergangenen Modellierungsprojekten wie CMIP5 (Vorgänger 
von CMIP6) und CODEX (regionale Klimamodellierung aufbauend auf CMIP5). Für 
alle Daten in diesem Pool gilt, dass diese zusammenhängend, einheitlich und zuver- 
lässig zur Verfügung gestellt werden. 


Globale CMIP6-Daten 


Langzeitarchivierung 
im ESGF 


WDCC 


CMIP6-Daten 
repliziert 
für Forschung in 
Deutschland 


In Deutschland 
erzeugte Daten 


Deutsche CMIP6-Daten 
Publiziert am DKRZ 


Ausgewä 2 
Rep; gewählte 


Weitere 
Referenz-Daten 


Zusätzliche CMIP6-Daten ) 


— 


Abb. 2: Aufbau des CMIP6-Datenpools als Teil des DKRZ-CMIP-Datenpools 


Die Gesamtheit der Komponenten, der CMIP-Datenpool, der ESGF Datenknoten, das 
Langzeitarchiv im World Data Center for Climate (s. Abschnitt 4) und die erforderli- 
chen zusätzlichen Dienste wie etwa die Qualitätsprüfung und die DOI-Datenpubli- 
kation, bilden das nationale CMIP Datenarchiv, welches der nationalen Klimafor- 
schung frühzeitig ein hochwertiges und umfangreiches Datenarchiv nicht nur mit 
den nationalen, sondern auch mit den wichtigsten internationalen Daten zentral 
zur Verfügung stellt. Die Langzeitarchivierung im zertifizierten WDCC garantiert die 
Nachhaltigkeit der Datenbasis. 

Neben effektivem Datenzugriff und -transport ist für den Zugriff auch die Doku- 
mentation der Daten für eine nutzerangepasste Datensuche erforderlich. Zuneh- 
mend stärker wird im Rahmen des Datenzugriffs auch Rechenkapazität am Archiv- 
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standort nachgefragt fiir eine Vorauswertung und Reduzierung der zu transferieren- 
den Datenmenge (s. Abschnitt 5). 


3 Die Earth System Grid Federation (ESGF) 


Eine spezielle Herausforderung des Data Sharing stellen die international koordi- 
nierten Klimamodell-Vergleichsexperimente (Coupled Model Intercomparison Pro- 
jects - CMIP) dar. Ergebnisse dieser Experimente werden einerseits von der Klima- 
forschungsgemeinschaft, andererseits auch intensiv in anderen Disziplinen wie der 
Klimafolgenforschung genutzt und fließen in die IPCC Sachstandsberichte ein (aktu- 
ell AR6). Neben dem Datenvolumen (z.B. > 20 PB CMIP6 Daten und > 4 PB CMIP5 
Daten) ist hier besonders herausfordernd, dass Datenkollektionen von weltweit ver- 
teilten Datenproduzierenden (den Klimarechenzentren und Klimadatenzentren) ei- 
ner weltweiten Forschungsgemeinschaft iiber einheitliche Such- und Zugriffsme- 
chanismen zugänglich gemacht werden müssen. 

Mit der Entwicklung der Earth System Grid Federation (ESGF), einem verteilten 
Peer-to-Peer-System zur Klimadatenverteilung, wurde auf diese Herausforderung 
zur Unterstützung von CMIP5 geantwortet. Eine Weiterentwicklung der ESGF Infra- 
struktur ist auch aktuell für CMIP6 im Produktionseinsatz.”° Datenkollektionen wer- 
den hier in weltweit verteilten Datenknoten einheitlich abgelegt und über einen ein- 
heitlichen Bereitstellungsprozess der globalen Föderation bekannt gemacht (dies 
wird als „ESGF Datenpublikation“ bezeichnet). Der Bereitstellungsprozess schließt 
eine minimale Datenqualitätsprüfung mit ein und stellt die Metadaten in dedizier- 
ten „Index-Knoten“ bereit, die wiederum mit Portal-Diensten verknüpft sind (Login, 
facettierte Suche, shopping card, etc.). Dedizierte Daten-Knoten übernehmen hier- 
bei Zusatzaufgaben wie z.B. die Replikation und Bereitstellung von Replikaten). 

Das DKRZ ist Gründungsmitglied von ESGF und einer der weltweit größten 
ESGF Datenknoten. Aktuell sind am DKRZ ESGF Portal über 4000 Nutzerinnen und 
Nutzer registriert und ca. 350 Nutzende nutzen das Portal pro Monat, um Daten zu 
suchen und Datendownloads anzustoßen. Aktuell (Stand 01.2020) werden ca. 
70000 getrennte Datendownloads pro Monat (korrespondierend zu ca. 100 TByte 
Datenvolumen) angestoßen, mit stark steigender Tendenz, da die aktuellen CMIP6- 
Daten erst teilweise im DKRZ-ESGF-Portal bereitgestellt wurden. 

Neben der Aufgabe der Replikation von Daten und Replikat-Bereitstellung über- 
nimmt das DKRZ die Zusatzaufgabe der Langzeitarchivierung von CMIP Datenkol- 
lektionen im WDCC des DKRZ. Hierzu wurde das DKRZ Langzeitarchiv als Datenkno- 
ten in die ESGF Föderation eingebunden und ist aktuell der einzige Knoten weltweit 


20 Vgl. Balaji 2018. 
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der ein Bandarchiv (mit assoziierter Metadatenbank) direkt in ESGF integriert. In ei- 
nem weitgehend automatisierten Prozess werden die ESGF Metadaten mit zusätzli- 
chen Archivierungsmetadaten verknüpft und in der WDCC Datenbank hinterlegt. 
Basierend auf diesen Metadaten wird dann ein „Filesystem in Userspace“ (FUSE) 
auf dem Langzeitarchiv simuliert, das es erlaubt die Datenbestände als ESGF-Daten- 
knoten in der ESGF-Datenföderation suchbar und zugreifbar zu machen. 

Eine vom DKRZ entwickelte Erweiterung der ESGF-Infrastruktur unterstützt zu- 
dem die Vergabe von persistenten Identifikatoren (PID, hier: Handle PID) als Teil 
des ESGF-Datenpublikationsprozesses. Die PID-Vergabe erfolgt auf File-Ebene und 
auf Kollektionsebene (Zeitserie einer Variable), zudem wird die Datenversionierung 
und Datenreplikation in den PID-Metadaten mitverfolgt. PID bilden die Grundlage 
höherer Dienste, die das Data Sharing, z.B. die Zuordnung von Errata-Information 
für Daten oder die Möglichkeit der Bildung von nutzerdefinierten Datenkollektio- 
nen, wesentlich unterstützen. Auf technischer Ebene werden die PID-Registrie- 
rungsinformationen auf Basis einer verteilten ausfallsicheren Message-Queue an die 
zentrale Registrierungsstelle am DKRZ weitergeleitet. 

Auf höherer Datenkollektionsebene (z.B. alle Daten eines konkreten Modell- 
Laufes) vergibt das DKRZ zudem Datacite DOI. Als Langzeitarchiv ist das DKRZ ins- 
besondere an der Nachhaltigkeit der entwickelten PID Dienste interessiert. Auf ope- 
rativer Ebene ist das DKRZ deshalb Teil des europäischen PID Consortiums (ePIC)? 
und auch Mitglied des European Data (EUDAT)” Konsortiums. Zudem engagiert 
sich das DKRZ in PID bezogenen Arbeitsgruppen der Resarch Data Alliance (RDA) 
und ist an der European Open Science Cloud (EOSC) beteiligt. 

Grundvoraussetzung für die Datenbereitstellung im Rahmen der ESGF-Datenfö- 
deration ist die Einhaltung von Datenkonventionen (netcdf-CF?), sowie spezifi- 
schen Modell-Vergleichsprojekt Festlegungen (siehe z.B. die CMIP6-Modelldaten- 
vorgaben”*). Diese konstituieren zum einen kontrollierte Vokabulare, auf denen 
z.B. Metadata-Werte in den netcdf-CF files basieren, aber auch Auswahllisten in 
den facettierten Such-Schnittstellen in den Portalen. Zum anderen legen diese Na- 
menskonventionen File-Namen fest, sowie Strukturvorgaben zur Abspeicherung auf 
Filesystemen. 


21 S. https://www.pidconsortium.net/. 

22 S. https://eudat.eu/. 

23 Climate and Forecast (CF) Conventions and Metadata, s. http://cfconventions.org. 

24 CMIP6 model output requirements, s. https://pcmdi.lln].gov/CMIP6/Guide/modelers.html. 
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Bezug zum Datenpool 


Der oben im Abschnitt 2 beschriebene DKRZ-CMIP-Datenpool ist wesentliche Grund- 
lage der ESGF-Datenbereitstellung. Die in ihm enthaltenen CMIP5-, CMIP6- und 
CORDEX-Daten (CORDEX steht für COordinated Downscaling Experiment) bilden 
die Speicherbasis der DKRZ-ESGF-Datenknoten. Der Datenaufnahmeprozess erfolgt 
im Wesentlichen über zwei Wege: die Datenreplikation von anderen ESGF-Daten- 
knoten weltweit, sowie die direkte Datenübernahme von Klimamodellierungszen- 
tren (deutschen und ausländischen). In jedem Falle erfolgt eine Datenqualitätsprü- 
fung vor der „ESGF Datenpublikation“. Im Falle von Originaldaten mithilfe automa- 
tisierter, detaillierter Prüfung der Einhaltung der geforderten Standards und 
Konventionen (z.B. CF-Konventionen und CMIP6-Festlegungen) und im Falle der 
Replikate mithilfe einfacher Vollständigkeits-Prüfroutinen. 

Da das Gesamtvolumen der CMIP6-Datenkollektionen (-20 PB) deutlich grösser 
ist als der zur Verfügung stehende DKRZ-Datenpool-Plattenplatz (-fünf PB) ist die 
Aufnahme (und ESGF-Publikation) von Replikaten zudem von den Bedürfnissen 
und Prioritäten der Nutzenden gesteuert. Wissenschaftlerinnen und Wissenschaft- 
ler, die für ihre Analysen spezifischen Bedarf von CMIP-Datenreplikaten im Online- 
zugriff am DKRZ haben, können diese bei den DKRZ-Datenmanagern anmelden. 
Diese sorgen dann dafür, dass diese Anforderungen Priorität bei der Organisation 
der Datenreplikation bekommen. 

Die Datenreplikation erfolgt prioritär über hoch performante Globus-Connect- 
Endpunkte,” die von zentralen ESGF-Datenknoten bereitgestellt werden. Eine welt- 
weite Arbeitsgruppe, die mit den nationalen und internationalen Forschungsnetzbe- 
treibern in engem Kontakt steht, sorgt für eine Überwachung und Optimierung der 
Übertragungswege. Im Allgemeinen wird folgende Strategie verfolgt, um die CMIP- 
Datenkollektionen möglichst schnell der internationalen Forschungsgemeinschaft 
bereitzustellen: Datenkollektionen von Datenknoten mit schlechter Netzanbindung 
werden möglichst schnell zu zentralen Datenknoten (z.B. auf den jeweiligen Konti- 
nenten) repliziert, die dann als sogenannte „Tier1“-Datenknoten die Weitervertei- 
lung über optimierte Übertragungswege übernehmen können. Die Datenreplikation 
gewährleistet damit zwei zentrale Aspekte des Data Sharings: schnelle Zugreifbar- 
keit und hohe Verfügbarkeit der Datenkollektionen. Ein weiterer zentraler Aspekt 
des Data Sharings, die Verfügbarmachung von hochvolumigen Datenkollektionen 
zum Zweck der effizienten Datenanalyse; wird inAbschnitt 5 beleuchtet. 


25 Globus research data management cloud, s. http://docs.globus.org. 
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4 Das World Data Center for Climate (WDCC) 


Das World Data Center for Climate (WDCC)* ist ein vom DKRZ betriebenes Langzeit- 
archiv für großvolumige Simulationsdaten aus der Klimaforschung. Seit 2003 ist es 
reguläres Mitglied des World Data System of the International Science Council 
(WDS)”, früher ICSU. Als solches unterstützt es die Vision des International Science 
(ISC) durch die langfristige Bewahrung und des Angebots eines freien Zugangs zu 
qualitätsgesicherten wissenschaftlichen Daten aus dem Bereich der Klimaforschung 
für die Nutzung in der Klimaforschung und darüber hinaus. 
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Abb. 3: Eingangsseite zum World Data Center for Climate (WDCC) 


Verbunden mit der Mitgliedschaft im WDS ist eine Zertifizierung durch das Core- 
TrustSeal (CTS). Technisch baut das WDCC auf unterschiedlichen Basisdiensten 
des DKRZ, wie z.B. dem High Performance Storage System (HPSS), das auch eine 


26 S. https://cera-www.dkrz.de/WDCC/ui/cerasearch. 
27 S. https://www.icsu-wds.org. 

28 S. https://council.science. 

29 S. https://www.coretrustseal.org. 
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geographisch verteilte Datenhaltung ermöglicht, oder einer Oracle-Datenbank als 
Persistenzschicht auf. Eingebettet ist es in etablierte Prozessketten zur Datentiber- 
nahme, Qualitätssicherung und Kuration. 

Mit seiner Positionierung als Langzeitarchiv erfüllt das WDCC neben der Unter- 
stützung der guten wissenschaftlichen Praxis mehrere Anforderungen der Wissen- 
schaft im Bereich des Data Sharings: zum einen die Nachnutzung der Daten über 
einen Projektzeitraum hinaus und zum anderen die Nachnutzung der Daten im in- 
terdisziplinären Kontext. Hiermit unterscheidet sich das Profil des WDCC signifikant 
von den anderen Data-Sharing-Angeboten des DKRZ. Durch die Verlagerung der 
Nutzung in sowohl zeitlicher als auch „disziplinärer“ Hinsicht aus dem Projekt- 
bzw. Community-Kontext hinaus, steigen die Anforderungen an die Aufbereitung 
und Prüfung der Daten und Metadaten sowohl bei Datenproduzierenden als auch 
beim DKRZ als Betreiber. Können bei Nachnutzung im Projekt noch gewisse Kennt- 
nisse über die Daten und ihre Erzeugung vorausgesetzt werden, so nehmen diese 
mit steigender „Entfernung“ vom Projekt ab. Diese Distanz muss bei der Verfügbar- 
machung der Daten mitberücksichtigt werden. Durch die Zuweisung von DataCite 
DOIs schafft das DKRZ für geprüfte Daten die Voraussetzungen zur fachgerechten 
Zitation und Förderung des wissenschaftlichen Records. 

Auch die Auffindbarkeit der Daten selbst muss sich anderen Anforderungen stel- 
len. Kann im Projektrahmen noch die Bekanntheit eines Repositoriums vorausgesetzt 
werden, so ist dies bei der Langzeitnutzung nicht mehr gegeben. Diese Anforderung 
nimmt das WDCC auf, indem es die Metadaten der qualitätsgeprüften und zitierbaren 
Datensätze gemäß ISO 19115 und anderer akzeptierter Standards über Schnittstellen 
wie OAI-PMH” anbietet und damit z.B. im Rahmen der EOSC über B2FIND,?' WIS,” 
GEOSS,” WDS* oder Google Dataset Search” auffindbar macht. 

Als Langzeitarchiv mit Datenmengen im PB-Bereich steht das WDCC vor unter- 
schiedlichen Herausforderungen: Die Daten werden mit unterschiedlicher Intensität 
genutzt und Festplattenspeicher sind nicht nur in der Anschaffung, sondern auch 
im Betrieb kostenintensiv. Daher werden die Daten auf Magnetbändern gespeichert 
und nur auf Anfrage der Nutzenden hin in einen Cache geladen, in dem lediglich 
die meistgenutzten Daten vorgehalten werden. Bedingt durch die Speicherung auf 
Magnetband sind direkte Downloads bzw. Zugriffe auf die Daten nicht möglich und 
deren unmittelbare Auswertung wird, wie im folgenden Abschnitt beschrieben, er- 
schwert. Jedoch hat das WDCC in den Download ergänzende Dienste integriert, die 
darauf abzielen, die an die Benutzenden zu transferierende Datenmenge zu reduzie- 


30 S. https://www.openarchives.org/pmh. 

31 S. http://b2find.eudat.eu. 

32 WIS-WMO, s. https://www.wmo.int/pages/prog/www/WIS/overview.html. 
33 S. https://www.geoportal.org. 

34 ICSU-WDS Data Portal, s. https://www.icsu-wds.org/services/data-portal. 
35 S. https://toolbox.google.com/datasetsearch. 
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ren. Hier sind im Wesentlichen die Dienste zum Ausschneiden von Daten in Raum 
und Zeit zu erwähnen. 

Die allermeisten vom WDCC angebotenen Daten stehen unter der Lizenz CC- 
BY,?° es können jedoch nach Anforderung der Datenproduzierenden auch andere 
Lizenzen oder auch Embargoregeln implementiert werden. Das WDCC unterstützt 
den Open-Science-Gedanken und wirkt bei den Datenproduzierenden auf die Um- 
setzung hin. 

Als zertifiziertes Langzeitarchiv beherbergt das WDCC Domain- oder Projektar- 
chive, wie z.B. IPCC-DDC? der CoastDat,** und bietet diesen somit eine langfristige 
Heimat. Es ermöglicht diesen ein Data-Sharing auf lange Sicht und trägt damit zu 
deren verlässlichen Einbindung in die Forschungslandschaft bei. 


WDCC Downloads 
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Abb. 4: Zahl der Datendownloads aus dem WDCC 


5 Datenanalyse 


In der Vergangenheit wurden die am DKRZ über Data-Sharing-Dienste (Swift, Daten- 
pool, ESGF, WDCC) bereitgestellten Daten oft an den Heimatinstituten der Forschen- 
den analysiert. Diese bisherige Datenanalysepraxis des „Herunterladens und Zu- 


36 Für Creative-Commons-Lizenzen (CC-Lizenzen) s. https://creativecommons.org. 
37 IPCC Data Distribution Center, s. https://www.ipcc-data.org. 
38 S. https://www.coastdat.de. 


516 — Hannes Thiemann, Stephan Kindermann, Michael Lautenschlager 


hause Verarbeitens“ ist jedoch angesichts der auflaufenden Datenvolumina nicht 

mehr gangbar. 

Die Bereitstellung und Verwaltung eines zentralisierten Datenpools erfiillt somit 
auch die wichtige Aufgabe eine effiziente Datenauswertung am DKRZ zu unterstiit- 
zen. Wichtige Klimadaten-Kollektionen, die für Analysen benötigt werden, werden 
in Abstimmung mit dem DKRZ-Datenmanagement lokal im Datenpool zusammenge- 
führt und sind dort effizient durch die eng angebundenen Rechenressourcen nutz- 
bar. Die Bereitstellung von Diensten, die Forschende dabei unterstützen, ihre Analy- 
sen dort auszuführen, wo die Datenkollektionen gesammelt und verwaltet werden, 
ist aktuell eine zentrale Herausforderung der sich das DKRZ stellen muss. Im Fol- 
genden wird eine kurze Übersicht der verschiedenen Dienste gegeben, die zurzeit 
am DKRZ hierfür bereitgestellt werden: 

— Interaktive Datenanalyse: Wissenschaftlerinnen und Wissenschaftler können di- 
rekt (z.B. über secure shell sessions) über dedizierte Analyseknoten oder indi- 
rekt über Jupyter Notebooks” auf dem Datenpool arbeiten. Die Notebook-Umge- 
bung wird in einer jupyterhub-Installation‘® bereitgestellt und erlaubt es HPC- 
Ressourcen fiir Analyseaktivitäten zu reservieren und exklusiv zu nutzen. 

—  Dienstehosting: Wissenschaftlerinnen und Wissenschaftler bzw. Projekte haben 
oft die Anforderung bestimmte Mehrwert-Dienste bereitzustellen, die auf der 
Datenpool-Datenbasis aufbauen (z.B. Onlinebereitstellung von offline regelmä- 
Rig generierten Analyseresultaten). Hierzu betreibt das DKRZ eine Openstack- 
Installation, die es ermöglicht, schnell dedizierte virtuelle Maschinen bereitzu- 
stellen, die dann projektspezifisch konfiguriert werden können.“ 

- Webservices: Oft genutzte Basis-Prozessierungsdienste (wie z.B. Datenvolumen 
reduzierende Ausschneideoperationen oder Basis-Statistik-Operationen) sind 
sinnvolle Kandidaten, über wohldefinierte Interfaces als Webservices bereitge- 
stellt zu werden. Diese können direkt von Forschenden angesprochen werden 
oder (was ein häufigerer Use Case ist) über dedizierte Portale und Plattformen, 
die spezifische Nutzendengruppen unterstützen (siehe z.B. das europäische Kli- 
ma-Folgeforschungsportal“” oder die Anbindung von Klimamodelldaten an den 
Copernicus Data Store). Zur Unterstützung dieser Anforderung initiierte das 
DKRZ das „Birdhouse“-Open-Source-Projekt"? zur Bereitstellung von OGC-WPS- 
Standard-konformen Prozessierungsdiensten. 


39 Jupyter Interactive Computing Services, s. http://jupyter.org. 

40 JupyterHub Computational Environment, s. http://jupter.org/hub. 

41 S. z.B. https://cmip-esmvaltool.dkrz.de, wo aktuelle CMIP6-Modell-Diagnostik-Resultate ba- 
sierend auf ESMValTool veröffentlicht werden; s a. Eyring 2019. 

42 IS-ENES Climate4Impact Portal, s. https://climate4impact.eu. 

43 S. https://birdhouse.readthedocs.io/en/latest; s.a. Ehbrecht et al. 2018. 
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Wegen der engen internationalen Verflechtung von Klimadaten-Analyseaktivitäten 
(z.B. durch die IPCC-Arbeitsgruppen für die IPCC-Sachstandsberichte) ist auch in 
Bezug auf die Prozessierungsdienste eine enge Absprache und Anpassung der 
Diensteangebote an den verschiedenen Klimadatenzentren erforderlich. Auf euro- 
päischer Ebene erfolgt dies aktuell im Rahmen des IS-ENES3-H2020-Projektes, das 
Datenprozessierungsdienste an zentralen Klimadatenzentren in Europa (DKRZ/ 
Deutschland, Institut Pierre Simon Laplace - IPSL/Frankreich, Centre for Environ- 
mental Data Analysis - CEDA/England und Centro Euro-Mediterraneo sui Cambia- 
menti Climatici - CMCC/Italien) etabliert und abgestimmt bereitstellt. Zudem wer- 
den aktuell Prozessierungsdienste etabliert, die an den COPERNICUS Climate Data 
Store (CDS) angebunden werden sollen. Auf internationaler Ebene wurde eine 
ESGF-Arbeitsgruppe etabliert, um Basis-Prozessierungsdienste an ESGF-Datenkno- 
ten zu definieren. 


6 Die FAIR-Prinzipien 


Die FAIR-Prinzipen“* definieren Grundsätze für das nachhaltige Forschungsdaten- 
management, auf die Forschende zunehmend nicht nur von ihren jeweiligen For- 
schungsinstitutionen, sondern auch von Geldgebern verpflichtet werden. Als Infra- 
strukturprovider für die Erdsystemforschung unterstützt bzw. ergänzt das DKRZ mit 
seinen Dienstleistungen die Anstrengungen der Forschenden in dieser Hinsicht in 
unterschiedlichem Maße: 

- Die DKRZ-Cloud unterstützt lediglich die Accessibility der Forschungsdaten. 

- Durch die vielfältigen und international abgestimmten Vorarbeiten zur Daten- 
auswahl und -standardisierung erfüllen die Daten im CMIP-Datenpool insbeson- 
dere die Bereiche „I“ und „R“, während die Bereiche „F“ und „A“ weniger stark 
ausgeprägt sind. Dies wird jedoch kompensiert durch die auf dem Pool aufbau- 
enden weiteren Dienstleistungen. 

- Die im internationalen Rahmen etablierte technologische Lösung des ESGF (ins- 
besondere die durch das DKRZ initiierte PID-Vergabe für CMIP6-Daten als Teil 
des ESGF-Datenpublikationsprozesses), ergänzt durch die enge Interaktion mit 
den Wissenschaftlerinnen und Wissenschaftlern, schafft gute Voraussetzungen 
für die Erfüllung aller Bereiche von FAIR. 

— Auch die Langzeitarchivierung im WDCC erfüllt in hohem Maße die FAIR-Richt- 
linien (im Besonderen erreicht durch die intensive Datenkuration und Zuwei- 
sung von DataCite DOls für angemessene Datengranularitäten). Wie auch beim 
ESGF demonstrieren die Zugriffszahlen die starke Nachnutzung der Daten. Das 


44 Vgl. Wilkinson et al. 2016. 
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WDCC geht jedoch deutlich über FAIR hinaus, indem es die nachhaltige Nach- 
nutzung der Daten ermöglicht. 


Bedingt durch die hohen und weiter steigenden Datenvolumina ist die Ausgestal- 
tung der DKRZ-Analysedienste nach den FAIR-Prinzipien von großer Bedeutung. So- 
wohl die Netzwerk-, die Speicherplatz- als auch die CPU-Anforderungen fiir die Da- 
tenanalyse können von vielen Nutzenden nicht mehr an ihren Heimatinstitutionen 
erfiillt werden. Daher steigen die Anfragen fiir die sogenannte Server-Side-Analyse. 

Wahrend die Tragweite der FAIR-Prinzipien fiir den Datenlebenszyklus mittler- 
weile gut verstanden ist und auch umgesetzt wird, ist dieses fiir den Bereich der 
Analysedienste jedoch noch nicht der Fall und muss in den kommenden Jahren wei- 
terverfolgt werden. 


Fazit 


Für die unterschiedlichen Gruppen von Datennutzenden am DKRZ werden verschie- 
dene, angepasste Data-Sharing-Dienste zur Verfügung gestellt, deren Schaffung, 
Weiterentwicklung und Betrieb auf einer kontinuierlich durchgeführten Analyse der 
Nutzer- und Datenerzeugeranforderungen beruht und Entwicklungen außerhalb 
des DKRZ und der Klimaforschung berücksichtigt. Für die Arbeitsgruppen am DKRZ 
stehen die Festplatten auf dem Großrechner Mistral, die DKRZ Cloud und der CMIP- 
Datenpool mit ESGF zur Verfügung. Die Fachwissenschaftlerinnen und -wissen- 
schaftler aus der Klimaforschung greifen eher auf Klimamodelldaten aus der DKRZ 
Cloud, dem CMIP-Datenpool mit ESGF und dem Langzeitdatenarchiv WDCC zu. Wis- 
senschaftlerinnen und Wissenschaftler aus verwandten Fachdisziplinen entfernen 
sich weiter von der Hochleistungsrechnerumgebung des DKRZ und greifen eher auf 
Daten aus dem CMIP-Datenpool mit ESGF und dem WDCC zu. Noch weiter entfernt 
von der Rechnerumgebung des DKRZ und der Klimamodellierung sind Wissen- 
schaftlerinnen und Wissenschaftler aus anderen Fachdisziplinen, Politikerinnen 
bzw. Politiker und Entscheidungsträgerinnen bzw. -träger. Diese Nutzendengruppe 
ist auf Informationsmaterial des DKRZ angewiesen“ und nutzt für den Datenzugriff 
vornehmlich das WDCC am DKRZ. 

Das DKRZ verfolgt in seinen Data-Sharing-Diensten das Ziel, die FAIR-Datenma- 
nagementprinzipien (Findable, Accessible, Interoperable, Reusable)” und Open Ac- 
cess fiir den Datenzugriff umzusetzen. In der DKRZ Cloud und im CMIP-Datenpool 
sind Abstriche im Bereich „Reusable“ zu verzeichnen, da die Informationen zu Da- 


45 S. https://www.dkrz.de/dienste/datenverteilung. 
46 S. https://www.dkrz.de/kommunikation/pub. 
47 Vgl. Wilkinson et al. 2016. 
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teninterpretation und -bearbeitung nicht vollständig sind. Hier werden Kenntnisse 
zu Klimaforschung und Klimamodellierung vorausgesetzt. Die FAIR-Prinzipien sind 
weitgehend im WDCC umgesetzt. Die beschreibenden Metadaten zielen in ihrem 
Umfang auf Vollständigkeit für Datennachnutzung unabhängig vom Datenprodu- 
zierendem. 

Herausforderungen bestehen insbesondere in den Bereichen Datenorganisati- 
on, Datenanalyse, Standards und Datendokumentation. In der Klimamodellierung 
wachsen sowohl die Datenmenge als auch die Anzahl der Datenentitäten. Klassi- 
sche Filesysteme stoßen an ihre Grenzen und sind nicht flexibel genug, um unter- 
schiedliche Datentopologien darzustellen. Lösungsansätze bieten hier die PID mit 
ihrem globalen Auflösungsmechanismus“® und eine darauf aufbauende DOA (Digi- 
tal Object Architecture).*” 

Große Datenmengen in der Klimamodellierung, spezifische Datenformate und 
die Datennutzung in vielen Wissenschaftsdisziplinen sowie gesellschaftlichen Be- 
reichen stellen Herausforderungen an transparente Datenbearbeitung und die Aus- 
wertung in einer globalen Datenföderation (Datenanalyse). Angefragt ist nicht der 
Zugriff auf Originaldatenentitäten, sondern auf die „on the fly“-Auswertung von kli- 
matologischen Fragestellungen (z.B. Tropentage oder Starkniederschläge in einer 
Region). 

Eine weitere Herausforderung in der Analyse großer Datenmengen, wie sie in 
der Klimamodellierung auftreten, ist die automatisierte Datenbearbeitung eingebun- 
den in die Data-Sharing-Infrastruktur. Definition und Einhaltung von Standards für 
Daten und Metadaten sind für eine reibungsfreie, automatisierte Datenbearbeitung 
notwendig. Wesentliche Entwicklungen liegen hier nicht in der technischen Imple- 
mentierung, sondern in der Vereinheitlichung der Standards und ihrer Anwendung 
in den Dateninfrastrukturen, für die das DKRZ mit vielen Partnern, z. B. in nationalen 
Infrastrukturen wie der Nationalen Forschungsdateninfrastruktur (NFDI)” oder der 
European Open Science Cloud (EOSC),°! zusammenarbeitet. 

Auch die Datendokumentation gehört nach wie vor zu den Herausforderungen 
im Management wissenschaftlicher Daten. Der direkte Kontakt zum Datenproduzie- 
renden verliert sich immer mehr, je weiter sich die Nutzergruppe vom Forschungs- 
gegenstand Klimamodellierung entfernt: Klimaforschung — Klimafolgenforschung - 
Politik und Öffentlichkeit. Umso wichtiger ist eine vollständige, einfach zugängliche 
Dokumentation der Klimamodelldaten, die eine Beurteilung der Daten auf Basis des 
eigenen Kenntnisstands erlaubt. Forschungsgegenstand ist insbesondere ein objek- 
tiver und akzeptierter Qualitätsstandard für Klimadaten. Ansätze finden sich in den 


48 Handle Proxy Server, s. http://hdl.handle.net. 

49 Vgl. Weigel et al. 2013; Weigel et al. 2014. 

50 S. https://www.bmbf.de/de/nationale-forschungsdateninfrastruktur-8299.html. 
51 S. https://www.eosc-portal.eu. 
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Entwicklungen und Anwendungen der Data Maturity Matrix.” Auch die Bereitstel- 
lung von Provenance-Informationen gehört zu den Herausforderungen im Bereich 
der Datendokumentation. Transparenz der Bearbeitungsschritte und Entwicklungs- 
historie von wissenschaftlichen Daten hilft bei der Beurteilung und stärkt das Ver- 
trauen. 
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Heinz Pampel und Kirsten Elger 
5.6 Publikation und Zitierung von digitalen 
Forschungsdaten 


Abstract: Der vorliegende Beitrag beschreibt gängige Anforderungen und Praktiken 
bei der Publikation von digitalen Forschungsdaten. Er gibt einen Überblick über re- 
levante Initiativen, Informationsinfrastrukturen und Standards. Über die Perspekti- 
ve der Publikation hinaus befasst sich der Beitrag mit der derzeitigen Praxis der 
Zitation von Forschungsdaten und er gibt einen Ausblick auf zukünftige Herausfor- 
derungen rund um die dauerhafte Zugänglichkeit und Nachnutzung von For- 
schungsdaten im Kontext von Open Science. 


1 Anforderungen an die Publikation von Forschungs- 
daten 


Die fortschreitende Digitalisierung bietet Forschenden neue Möglichkeiten im Um- 
gang mit digitalen Forschungsdaten. Bereits 2003 hat ein breites Bündnis von wis- 
senschaftlichen Einrichtungen dieses Potenzial in der „Berliner Erklärung über den 
offenen Zugang zu wissenschaftlichem Wissen“ betont.! Im Kern dieser Erklärung 
steht das Anliegen, alle Ressourcen der wissenschaftlichen Arbeit offen zugänglich 
und nachnutzbar zu machen. Über den Open Access zu wissenschaftlichen Textpu- 
blikationen hinaus, soll auch der offene Zugang zu Forschungsdaten, Metadaten, 
Software und anderen Quellen der wissenschaftlichen Arbeit sichergestellt werden.? 

Diese Forderung ist mittlerweile zu einem zentralen Bestandteil der Wissen- 
schaftspolitik geworden, der in Europa unter dem Motto „as open as possible, as 
closed as necessary“? verfolgt wird. Auch im Kontext von G8 wird das Thema erör- 
tert. So haben die G8-Staaten im Jahr 2013 die folgende Forderung formuliert: 
„Open scientific research data should be easily discoverable, accessible, assessable, 
intelligible, useable, and wherever possible interoperable to specific quality stan- 
dards.“* Dieser Standpunkt macht deutlich, dass es eines definierten Rahmens der 
Publikation von Forschungsdaten bedarf, der auf technischer, rechtlicher, organisa- 
torischer und auch finanzieller Ebene sicherstellt, dass die Forschungsdaten dauer- 


1 Vgl. Max Planck Society 2003. 

2 Vgl. Klump et al. 2006. 

3 Council of the European Union 2016, 8. 
4 G8 Science Ministers 2013. 
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haft zugänglich sind und in qualitativ angemessener, nachnutzbarer Form angebo- 
ten werden. 

Zentrale Instanzen für die Bereitstellung von Forschungsdaten sind digitale For- 
schungsdatenrepositorien (FDR), die sicherstellen, dass die Daten anhand von defi- 
nierten Standards gespeichert, dokumentiert, für Menschen und Maschinen in 
nachnutzbarer Form zugänglich gemacht werden und über Suchdienste auffindbar 
sind. Diese Publikationsverfahren und damit verbundene Standards haben sich in 
den letzten Jahren in vielen Fachgebieten als gute Praxis des wissenschaftlichen Ar- 
beitens manifestiert, wie im Folgenden an zwei Fachdisziplinen skizziert werden 
soll. 

In der biomedizinischen Forschung wurde im Human Genome Project? bereits 
im Jahr 1996 Folgendes beschlossen: annotierte Gensequenzen „should be submit- 
ted immediately to public databases“. Diese Praxis wurde durch weitere Erklärun- 
gen, wie den Fort Lauderdale Principles’ und dem Toronto Statement,® weiterentwi- 
ckelt. So ist es heute in diesem Forschungszweig ein allgemeiner Standard, dass 
Gensequenzen in fachlichen Repositorien wie z.B. GenBank’ gespeichert werden. 
Diese Praxis wird durch die wissenschaftlichen Fachzeitschriften untersttitzt, die 
die Publikation der Gensequenzen in GenBank und anderen fachlichen Forschungs- 
datenrepositorien zur Bedingung für die Veröffentlichung von wissenschaftlichen 
Artikeln machen." Mittlerweile gibt es über 1600, teils sehr spezialisierte, digitale 
FDR im Bereich der biomedizinischen Forschung über die wissenschaftliche Daten 
veröffentlicht werden." 

Auch in den Erd- und Umweltwissenschaften etablieren sich solche Praktiken. 
Im Rahmen der Coalition for Publishing Data in the Earth and Space Sciences (COP- 
DESS)” arbeitet seit 2014 ein breites Bündnis aus wissenschaftlichen Fachgesell- 
schaften, FDR, Bibliotheken, Verlagen und Forschungsförderern an der Entwick- 
lung und Förderung von abgestimmten Standards, um die Qualität der geowissen- 
schaftlichen Forschungsdaten sicherzustellen und Forschungsdaten als zitierbare 
Ergebnisse wissenschaftlicher Arbeit anzuerkennen.” So verpflichten sich bspw. die 
Verlage, die das COPDESS Statement of Commitment unterzeichnet haben, bei der 
Einreichung eines Artikels in ihren Journalen aktiv nach der Veröffentlichung von 
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Forschungsdaten, die der wissenschaftlichen Publikationen zugrunde liegen, zu fra- 
gen und deren Zitierung in den Artikeln sicherzustellen. Auch wird die Bedeutung 
von domänenspezifischen FDR hervorgehoben: „Earth and space science data 
should, to the greatest extent possible, be stored in appropriate domain repositories 
that are widely recognized and used by the community“. Im November 2019 weist 
das COPDESS Statement of Commitment 44 Unterschriften von Verlagen, Datenzen- 
tren und -repositorien, Fachgesellschaften und anderen Initiativen in der Fachcom- 
munity nach. Im Jahr 2018 wurden von der gleichen Gruppe die Ergebnisse des auf 
das COPDESS Statement of Commitments aufbauenden Enabling FAIR Data Projek- 
tes vorgestellt.” Im Rahmen dieses Projektes wurden Standards und Empfehlungen 
zur Publikation von Forschungsdaten gemäß den FAIR-Prinzipien'® entwickelt. 

Durch die Verankerung von Anforderungen zur Publikation der Forschungsda- 
ten in den Data Policies von Förderorganisationen, wissenschaftlichen Einrichtun- 
gen und Zeitschriften nimmt das Themenfeld im Bereich des wissenschaftlichen Pu- 
blikationswesen eine zunehmend wichtigere Position ein,” die durch die wissen- 
schaftspolitische Verankerung der FAIR-Prinzipien® in der europäischen 
Forschungsförderung weiter an Bedeutung gewinnt.” Diese Prinzipien wirken auf 
die Praxis, wie digitale Forschungsdaten veröffentlicht werden. Im Kern tangieren 
vier FAIR-Prinzipien die Veröffentlichungspraxis der Forschungsdaten, ihre Metada- 
ten und der Repositorien, auf denen die Daten gespeichert werden: So müssen For- 
schende, unterstützt durch Einrichtungen der Informationsinfrastruktur, sicherstel- 
len, dass Forschungsdaten auffindbar (Findable), zugänglich (Accessibe), interope- 
rabel (Interoperable) und wiederverwendbar (Reusable) sind. 


2 Datenpublikation auf Repositorien 


Datenpublikationen sind eigenständige, zitierbare und dauerhafte Veröffentlichun- 
gen von digitalen Forschungsdaten in einem FDR. FDR sind digitale Informationsin- 
frastrukturen für Forschungsdaten. Sie stellen die dauerhafte Zugänglichkeit von 
Forschungsdaten sicher, indem sie die Forschungsdaten speichern, mit persistenten 
Identifikatoren, z.B. dem Digital Object Identifier (DOI), eindeutig adressieren, de- 
ren Auffindbarkeit sicherstellen und sie so einer definierten Gruppe an Nutzerinnen 
und Nutzern zur Verfügung stellen. Die FDR und ihre Services sind durch Form und 
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Formate der Forschungsdaten geprägt, die sie speichern und zugänglich machen. 
Ein FDR ist als technisches und organisatorisches System zur Sicherung und dauer- 
haften Zugänglichkeit der Forschungsdaten zu verstehen. 

Eine Datenpublikation fördert die Transparenz der Forschung, in dem Fachkol- 
leginnen und -kollegen sowie weitere interessierte Personen die erzeugten Ergebnis- 
se nachprüfen können. Sie ermöglicht die Nachnutzung der Daten in neuen Kontex- 
ten und stellt darüber hinaus die Anerkennung der Forschenden, die die Daten 
erhoben haben, sicher.” 

Mit Blick auf ihre Nutzerinnen und Nutzer können vier Typen von FDR unter- 
schieden werden: institutionelle, disziplinspezifische, multidisziplinäre und pro- 
jektspezifische.”! Im Folgenden werden einige Beispiele gegeben (zur Recherche- 
möglichkeit für FDR sei auf das Ende dieses Abschnittes verwiesen). 

Ein institutionelles FDR steht den Angehörigen einer wissenschaftlichen Einrich- 
tung zur Speicherung ihrer Daten zur Verfügung. Beispiele sind Edinburgh DataS- 
hare,” das an der University of Edinburgh betrieben wird, und Open Data LMU? an 
der Ludwig-Maximilians-Universität München. 

Ein disziplinspezifisches FDR ist beispielsweise GFZ Data Services, welches am 
Deutschen GeoForschungsZentrum GFZ betrieben wird.” Während die Daten auf 
Edinburgh DataShare und Open Data LMU die Vielfalt der Disziplinen der jeweiligen 
Universität widerspiegeln, ist GFZ Data Services auf geowissenschaftliche Daten 
und fachspezifische Software spezialisiert. Als Teil des Fachinformationsdienstes 
Geowissenschaften (FID GEO)” steht es der breiten geowissenschaftlichen Fach- 
community als Infrastruktur zur Verfügung.” Als fachlicher Service unterstützt das 
Repositorium neben dem DataCite Metadaten Standard” diverse in den Geowissen- 
schaften genutzten Fachstandards für Metadadaten, wie bspw. die ISO 19115 Geo- 
graphic Information - Metadata der Internationalen Organisation für Normung 
(ISO) oder das Directory Interchange Format (DIF)? der US-Raumfahrtbehörde 
NASA. Diese Fachstandards bieten die Möglichkeit, die Beschreibung der Daten 
durch fachspezifische Begriffe aus kontrollierten Vokabularien und Ontologien zu 
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ergänzen und somit einen wichtigen Beitrag zur Verbesserung der Auffindbarkeit 
und Inhaltserschließung bzw. -dokumentation von Forschungsdaten zu leisten. 

Weitere fachliche FDR sind z.B. die Infrastrukturen GenBank”? und PANGAEA.? 
GenBank wird seit 1982 von der National Library of Medicine (NLM) in den USA 
betrieben und wird von Forschenden aus aller Welt zur Speicherung von DNA-Se- 
quenzen genutzt. Das Repositorium weist gemeinfreie Gendaten von fast 420 000 
Spezies nach. Die einzelnen Datensätze werden durch eine von Genbank vergebene 
Accession Number adressiert.” 

PANGAEA ist Mitglied des World Data Systems des International Science Coun- 
cils (ISC) und definiert sich als „Data Publisher for Earth & Environmental Science“. 
Das Repositorium wurde von 1995 bis 1997 aufgebaut und wird an der Universität 
Bremen sowie am Alfred-Wegener-Institut Helmholtz-Zentrum für Polar- und Mee- 
resforschung betrieben.** PANGAEA steht Forschenden aus vielen verschiedenen 
Bereichen der Erd- und Umweltwissenschaften zur Verfügung, hat jedoch ein be- 
sonders ausgeprägtes Sammlungsprofil im Bereich der marinen Geowissenschaften 
und der Paläoklimaforschung. Alle Datensätze werden mit einem DOI adressiert. 
Die Forschungsdaten sind meist unter der Creative-Commons-Lizenz „Namensnen- 
nung“ publiziert.” 

Im Bereich der multidisziplinären FDR sind die Dienste Zenodo und Figshare po- 
pulär. Zenodo”* wird am CERN betrieben und wurde im Rahmen des EU-Projektes 
OpenAIRE” entwickelt.’ Figshare”” wird von der Firma Digital Science betrieben 
und versteht sich als „The All In One Repository“.“° Das generische Profil beider 
Dienste hat den Nachteil, dass disziplinäre Standards nicht unterstützt werden. So 
sind Forschungsdaten in beiden Repositorien nur ein Publikationstyp unter vielen 
und damit die Auffindbarkeit der Daten über digitale Kataloge herausfordernd. 

Ein weiterer Typ sind projektspezifische FDR. Ein Beispiel ist Digital Pantheon“, 
auf dem digitale Modelle und zugehörige Daten des antiken Pantheon in Rom ge- 
speichert und offen zugänglich gemacht werden. Auch dieses Repositorium adres- 
siert jedes seiner Datensätze mit einem DOI. Die Daten werden unter der Creative- 
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Commons-Lizenz „Namensnennung - Nicht-kommerziell — Weitergabe unter glei- 
chen Bedingungen“ lizenziert.”? 

Über diese Repositorientypen hinaus gibt es auch Portale, die Daten aus ver- 
schiedenen eigenständigen Quellen zusammenführen.“ 

Zur Identifikation von FDR“ empfiehlt sich der internationale Dienst re3data - 
Registry of Research Data Repositories.“ Durch sein umfassendes Metadatensche- 
ma,“ welches sowohl technische als auch inhaltliche Informationen umfasst, hilft 
dieser Service einer breiten Nutzergruppe (von Wissenschaftlerinnen und Wissen- 
schaftlern über Citizen Scientists bis zu Forschungsförderern) bei der Identifikation 
von geeigneten Repositorien. Im November 2019 weist das Verzeichnis über 2400 
Repositorien nach.“ Eine Analyse von Kindling et al., basierend auf re3data, zeigt, 
dass die Landschaft der FDR sehr heterogen und wenig standardisiert ist.“® 

Mit steigender Anzahl an Repositorien erwachsen auch Anforderungen an deren 
Vergleichbarkeit im Hinblick auf Vertrauenswiirdigkeit und Standardisierung.? 
Hierfür haben sich in der Vergangenheit verschiedene Zertifikate entwickelt (u.a. 
Data Seal of Approval, ICS World Data System, DIN-Norm 31644 „Kriterien für ver- 
trauenswürdige digitale Langzeitarchive“ oder auch ISO 16363 „Audit and certifica- 
tion of trustworthy digital repositories“), die von einigen Repositorien erlangt wur- 
den. Die im Rahmen der Research Data Alliance (RDA)” entwickelte CoreTrustSeal- 
Zertifizierung?! ist die gemeinsam von Data Seal of Approval und ICS World Data 
System entwickelte Zertifizierung, die sich als erster Schritt eines globalen Zertifizie- 
rungsnetzwerks betrachtet, welches auch die „extended level certification“ der DIN- 
Norm 31644 und die „formal level certification“ von ISO 16363 mit einschließt.” 


3 Praktiken der Publikation von Forschungsdaten 


Die Publikation von Forschungsdaten auf Repositorien kann durch verschiedene 
Veröffentlichungsstrategien praktiziert werden. Angelehnt an Dallmeier-Tiessen 
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(2011) und Pampel et al. (2012) können folgende Publikationsstrategien unterschie- 
den werden.” 

Veröffentlichung der Forschungsdaten als eigenständiges Informationsobjekt in 
einem Datenrepositorium: Diese Strategie zielt darauf ab, die Daten ohne begleiten- 
den Artikel in einer Fachzeitschrift zu veröffentlichen. Die Autorinnen und Autoren 
des Datensatzes gehen davon aus, dass die durch das Repositorium erfassten Meta- 
daten und ggfs. bereitgestellte README-Dateien ausreichen, um den Datensatz 
nachnutzen zu können. 

Veröffentlichung der Forschungsdaten in einem Datenrepositorium und Dokumen- 
tation im Rahmen eines begutachteten Artikels in einem Data Journal: Diese Strategie 
ermöglicht, dass der Datensatz umfassend beschrieben wird und im Rahmen eines 
Peer-Review-Verfahrens nicht nur der Artikel, sondern auch die Originalität und 
Qualität der Daten sowie deren Zugänglichkeit und Nachnutzbarkeit gesichert wer- 
den. Ein Beispiel für einen solches Data Journal ist Earth System Science Data 
(ESSD) im Verlag Copernicus Publications. Als erstes Data Journal weltweit, veröf- 
fentlicht diese Open-Access-Zeitschrift seit 2012 Data Description Articles, welche 
die (technische) Beschreibung von Datensätzen enthalten, bei gleichzeitiger Veröf- 
fentlichung der Daten über FDR. Durch die explizite Open Access Policy von ESSD, 
die nicht nur die Artikel, sondern auch Daten und Software miteinschließt, leistet 
ESSD einen wichtigen Beitrag für die Nachnutzung qualitätsgeprüfter Forschungs- 
daten. Ein weiteres Beispiel” ist das Journal Scientific Data von Springer Nature, 
das sich als „peer-reviewed, open-access journal for descriptions of scientifically va- 
luable datasets, and research that advances the sharing and reuse of scientific 
data“ bezeichnet.°° 

Veröffentlichung der Forschungsdaten in einem Datenrepositorium und Dokumen- 
tation im Rahmen eines Data Reports: Diese Praxis wird z.B. am Deutschen GeoFor- 
schungsZentrum GFZ umgesetzt. Die Daten selbst werden über das Repositorium 
GFZ Data Services veröffentlicht und darüber hinaus in einem intern begutachteten 
Datenreport ausführlich beschrieben.” Durch die Nutzung der „related identifier“ 
aus dem Metadaten-Schema der DOI-Registrierungsagentur DataCite** wird die Ver- 
knüpfung der beiden Ressourcen sichergestellt. Somit wird vom Report auf den Da- 
tensatz verwiesen und umgekehrt. Der Report hat deskriptiven Charakter und liefert 
Informationen zu allen Parametern, die für die Nachnutzung der Daten von Bedeu- 
tung sind. Die Daten selbst werden nicht von externen Wissenschaftlerinnen und 
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Wissenschaftlern begutachtet. Jedoch prüfen die Kuratorinnen und Kuratoren von 
GFZ Data Services Inhalte und Vollständigkeit der Metadaten und die technische 
Präsentation der Daten. Der Report wird GFZ-intern begutachtet. Damit ist die Nach- 
vollziehbarkeit der beiden Informationsressourcen gewährleistet. 

Veröffentlichung der Forschungsdaten in einem Repositorium als Ergänzung zu ei- 
nem begutachteten wissenschaftlichen Artikel (Data Supplement oder Enhanced Pu- 
blication): Eine steigende Zahl von Journalen fordert, dass in sogenannten Data 
Availability Statements Aussagen zu den Daten, die Grundlage des entsprechenden 
Artikels sind, gemacht werden (insbesondere zur Zugänglichkeit und den entspre- 
chenden Zugangskonditionen). Um dieser Anforderung nachzukommen wurden 
seit dem Beginn des 21. Jahrhundert vermehrt Daten als Supplement veröffentlicht. 
Dies bedeutete lange Zeit, dass Datentabellen oder zusätzliche Illustrationen den 
wissenschaftlichen Artikeln als Anhang beigelegt wurden, welche selten kuratiert 
und nur schwer auffindbar waren. Um diese Datenquellen nutzbar zu machen, emp- 
fehlen viele Journals heute die Nutzung von FDR anstelle klassischer Datensupple- 
mente.” 

Einige Journals verlangen inzwischen, dass die Reviewer schon bei der Einrei- 
chung eines Aufsatzes Zugang zu den Daten haben, um die Nachvollziehbarkeit der 
Ergebnisse zu prüfen. Immer mehr Repositorien unterstützen diese Praxis, indem 
sie bereits vor der Veröffentlichung der Daten Review-Links oder geschützte Zugän- 
ge zu den noch unveröffentlichten Datensätzen bereitstellen, die den Gutachterin- 
nen und Gutachtern den Zugang zu den Daten ermöglichen und erlauben, dass Än- 
derungswünsche an oder Ergänzungen zu den Daten im Rahmen der 
wissenschaftlichen Begutachtung vor der Registrierung der DOI möglich sind. In 
den meisten Fällen erfolgt die Publikation der Daten gleichzeitig mit der Publikation 
des Artikels. 


4 Auffindbarkeit von Forschungsdatenpublikationen 


Um die Auffindbarkeit der Daten zu ermöglichen, werden verschiedene Verfahren 
verfolgt. Zum einen gibt es wissenschaftliche Suchmaschinen, die neben anderen 
Publikationstypen auch Forschungsdaten aggregieren und somit auffindbar ma- 
chen. Beispiele hierfür sind: BASE — Bielefeld Academic Search Engine? und Open- 
AIRE Explore.°' Beide Suchdienste aggregieren über das Open Archives Initiative 
Protocol for Metadata Harvesting (OAI-PMH) Metadaten und erlauben so den Zugriff 
auf Forschungsdaten, die auf verteilten Repositorien gespeichert sind. Ein ähnli- 
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cher, aber auf Forschungsdaten fokussierter Suchdienst ist das im Rahmen von EU- 
DAT® entwickelte B2FIND.% 

Zum anderen gibt es spezielle Suchmaschinen fiir Daten wie z. B. DataCite Meta- 
data Search und Google Dataset Search.® Diese beiden Dienste erlauben den Zu- 
gang zu Forschungsdaten aus allen Disziplinen und werden im Folgenden näher be- 
schrieben. 

DataCite Metadata Search: Dieser Suchdienst erlaubt das Retrieval von Daten- 
und Softwarepublikationen sowie grauer Literatur, die tiber die DOI-Registrierungs- 
agentur identifiziert sind, über die entsprechenden Metadaten. Der Dienst kann 
über eine grafische Benutzeroberfläche und verschiedene maschinenlesbare 
Schnittstellen adressiert werden. Zu jedem Datensatz finden sich Metadaten und In- 
formationen zu dem Repositorium, das die Daten bereitstellt. DataCite ermöglicht 
auch die Verknüpfung der Datenpublikationen mit ORCID,° dem zentralen Dienst 
zur Autorinnen- und Autorenidentifikation.” 

Google Dataset Search: Dieser Suchdienst ging im Jahr 2018 online. Nach eige- 
nen Angaben „nutzt Google schema.org und andere Metadatenstandards, die den 
Seiten, die Datensätze beschreiben, hinzugefügt werden können“. Der Dienst lie- 
fert zu jedem Datensatz Informationen zur eindeutigen Kennzeichnung des Daten- 
satzes, ein Veröffentlichungsdatum, Informationen zum Repositorium, die Namen 
der Autorinnen und Autoren, die verwendete Lizenz sowie, wenn vorhanden, auch 
Informationen zur Förderorganisation und einen Abstract, der die Daten be- 
schreibt.” Darüber hinaus gibt es fachliche Suchdienste, z. B. die Suchmaschine AL- 
BERT.” Diese wird von der Bibliothek des Wissenschaftsparks Albert Einstein in 
Potsdam betrieben. Sie indexiert relevante Informationsressourcen für die geowis- 
senschaftlichen Community in Deutschland und ist ein gutes Beispiel für die ge- 
meinsame Indizierung von Text- und Datenpublikationen.” 

Ein weiteres Beispiel ist der Data Catalogue des Consortium of European Social 
Science Data Archives (CESSDA),” über den sich Forschungsdaten sozialwissen- 
schaftlicher Repositorien in Europa durchsuchen lassen.” Auch fördern vermehrt 
Verlage über ihre Zeitschriftenportale die Auffindbarkeit der Daten (z.B. Elsevier). 


62 S. https://eudat.eu. 

63 S. http://b2find.eudat.eu. 

64 S. https://search.datacite.org. 

65 S. https://toolbox.google.com/datasetsearch. 
66 S. https://orcid.org. 

67 Vgl. Fenner 2019. 

68 Google n.d. 

69 Vgl. Burgess und Noy 2018. 

70 S. http://bib.telegrafenberg.de. 

71 Vgl. Bertelmann et al. 2012. 

72 S. https://datacatalogue.cessda.eu. 
73 Vgl. Shepherdson und Thiel 2018. 


530 —— Heinz Pampel und Kirsten Elger 


Der Verlag ermöglicht über die Plattform ScienceDirect auch den Zugang zu Daten, 
die Grundlage eines von Elsevier verlegten Artikels und auf FDR gespeichert sind. 
Des Weiteren gibt es kostenpflichtige Suchdienste für Forschungsdaten wie z.B. 
den Data Citation Index von Clarivate, der auch in die Plattform Web of Science in- 
tegriert ist. 


5 Zitation von Forschungsdaten 


Forschungsdaten, auf die in einer Publikation Bezug genommen wird, sind entspre- 
chend des Kodexes der guten wissenschaftlichen Praxis zu zitieren: 


„Die Herkunft von im Forschungsprozess verwendeten Daten, Organismen, Materialien und 
Software wird kenntlich gemacht und die Nachnutzung belegt; die Originalquellen werden zi- 
tiert. Art und Umfang von im Forschungsprozess entstehenden Forschungsdaten werden be- 
schrieben.“’* 


Dies bedeutet in der Praxis, dass alle Personen, die in die Erhebung und Aufberei- 
tung der Daten involviert sind, als „Creator“ eines Datensatzes zu nennen sind. 

Die CRediT (Contributor Roles Taxonomy) bietet hierzu Hilfestellungen, indem 
sie 14 Rollen von Tätigkeiten im wissenschaftlichen Publikationsprozess be- 
schreibt.” Bei der Zitierung der Daten sollte der „Joint Declaration of Data Citation 
Principles“’° aus dem Jahr 2014 gefolgt werden. Diese beschreiben acht zentrale As- 
pekte bei der Zitation von Forschungsdaten, inklusive der klaren Empfehlung, dass 
Forschungsdaten genau wie alle anderen Quellen als Zitate in den Referenzen der 
wissenschaftlichen Artikel enthalten sein sollen. Das Anliegen der Erklärung ist, 
dass Forschungsdaten als zitierbares Produkt des wissenschaftlichen Erkenntnis- 
prozesses zu verstehen und den involvierten Personen „credit and attribution“ zu 
garantieren ist.” 

Bei der praktischen Umsetzung der Zitation von Forschungsdaten empfiehlt 
sich unbedingt die Nutzung persistenter Identifier, wie z.B. dem DOI. Insbesondere 
um diesen Identifier und die Registrierungsagentur DataCite sind in den letzten Jah- 
ren eine Vielzahl von hilfreichen Services rund um die Zitation und Publikation von 
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Forschungsdaten entstanden,’ so z.B. der Dienst DataCite Event Data, über den 
u.a. die Zitierung von Forschungsdaten erfasst wird.” 

Kern der Arbeit von DataCite ist die Entwicklung eines umfangreichen Metada- 
ten-Schemas zur Beschreibung von Forschungsdaten. DataCite empfiehlt in der Ver- 
sion 4.3 des DataCite-Schemas die folgende Zitation für Forschungsdaten: 


Creator (PublicationYear): Title. Version. Publisher. (resourceTypeGeneral). Identifier 


Darüber hinaus gibt das Schema Hinweise wie mit der Versionierung von Datensät- 
zen und wie mit dynamischen Daten umzugehen ist. Aktuell werden im Rahmen 
der Research Data Alliance (RDA) und deren Arbeitsgruppen „Data Citation“*! und 
„Data Versioning“® wichtige Arbeiten zum Thema verfolgt. 

Disziplinäre FDR bieten im Rahmen ihrer kuratorischen Tätigkeiten vielfältige 
Beratungsleistungen rund um den Veröffentlichungsprozess an. Diese Kompetenzen 
sind wichtig, wenn es beispielweise darum geht zu entscheiden, in welcher Granu- 
larität die Daten zu veröffentlichen sind. Allgemeine Hinweise sind hier aufgrund 
der verschiedenen Praktiken in den Fachdisziplinen nur bedingt anwendbar. 

Die Anforderungen der gängigen Zitationsstile zur Zitierung von Forschungsda- 
ten variieren. Das Publication Manual der American Psychological Association 
(APA) sieht z.B. in Version 6 den Publikationstyp „Data set“ vor und darüber hinaus 
den Publikationstyp „Data file and code book“ für weitere Ressourcen rund um ei- 
nen Datensatz.®? The Chicago Manual of Style Online erkennt in seiner Version 17 
Forschungsdaten nicht als eigenständigen Publikationstyp an.®* Auch der Umgang 
mit Forschungsdaten in Literaturverwaltungsprogrammen variiert. Während End- 
Note X7 über den Publikationstyp „Data set“ verfügt, ist dieser in Zotero 5.0 nicht 
vorhanden. Wünschenswert wäre in diesem Feld eine sehr viel stärkere Ausrichtung 
der Zitationsstile und deren Anwendung in den Literaturverwaltungsprogrammen 
an dem DataCite-Metadaten-Schema, welches die Anforderungen verschiedener Fä- 
cher vereinigt. 

Bereits jetzt deuten mehrere Studien darauf hin, dass Zeitschriftenartikel bei de- 
nen die zugrundeliegenden Daten offen zugänglich gemacht werden und auf diese 
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in den Artikeln hingewiesen wird, häufiger zitiert werden als Studien, die ihre Daten 
nicht veröffentlichen.®° 


6 Zukunft der Publikation von Forschungsdaten 


Mit der stetigen Durchdringung der Digitalisierung der Wissenschaft steigt die Not- 
wendigkeit der Maschinenlesbarkeit von digitalen Forschungsdaten mehr und mehr 
an. Die Schaffung von Interoperabilität, damit Menschen und Maschinen mit digita- 
len Forschungsdaten arbeiten können, ist ein zentrales Handlungsfeld für die kom- 
menden Jahre. Dazu gehört auch, dass Forschungsdaten, textuelle Publikationen, 
Software und andere Informationsobjekte stärker vernetzt werden. Die Nutzung des 
DataCite-Schemas für Metadaten und der DOI zur persistenten Identifizierung der 
Daten ermöglicht die Anwendung von Frameworks wie „Scholix“,®° mit denen die 
Verlinkung der Daten und textuellen Publikationen?” sichergestellt wird. Damit 
wird auch entsprechend dem Open-Science-Paradigma ermöglicht, dass For- 
schungsergebnisse umfassend zugänglich und nachnutzbar gemacht werden. Inter- 
operabilität stellt im Zusammenspiel mit der Publikation der Daten auf nachhalti- 
gen Infrastrukturen sicher, dass Anwendungen des Semantic Webs für die Wissen- 
schaft genutzt werden können. 

Die FAIR-Prinzipien formulieren hier zentrale Anforderungen rund um die Pu- 
blikation von Forschungsdaten, deren Realisierung in den kommenden Jahren eine 
zentrale Aufgabe für die Wissenschaft, ihre Informationsinfrastrukturen und weitere 
Dienstleister sein wird. Dabei ist die Wissenschaft gefordert, die Publikation der Da- 
ten nach ihren Vorstellungen und Bedingungen zum Wohle der Wissenschaft und 
der Gesellschaft zu gestalten und die Kommerzialisierung durch Verlage und andere 
externe Akteure zu verhindern. 


Fazit 


Die Publikation von Forschungsdaten gewinnt mehr und mehr Aufmerksamkeit. Je 
nach Disziplin bilden sich verschiedene Publikationspraktiken heraus, in deren 
Zentren FDR stehen, die die dauerhafte Zugänglichkeit und Nachnutzung der Daten 
sichern. Die Verankerung der FAIR-Prinzipien in den Leit- und Richtlinien rund um 
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das Forschungsdatenmanagement macht deutlich, dass die bisherigen Verfahren 
der Veröffentlichung von digitalen Forschungsdaten noch am Anfang stehen. Die 
Realisierung der Vision ,,FAIRer“ Daten stellt Wissenschaft und ihre Informationsin- 
frastrukturen vor vielfaltige Herausforderungen, die es zu diskutieren und zu gestal- 
ten gilt. 

Da viele digitale Arbeitsmethoden nur angewendet werden können, wenn auch 
die Daten selber möglichst automatisch und durch Maschinen gefunden, erfasst 
und analysiert werden können, stellt die Maschinenlesbarkeit der Forschungsdaten 
eine der zentralen Aufgaben fiir die Wissenschaft und ihre Serviceeinrichtungen, 
wie Bibliotheken, Daten- und Rechenzentren dar. Dabei gilt es, die Publikation von 
Forschungsdaten als technische und organisatorische Aufgabe zu begreifen, bei de- 
ren Umsetzung Einrichtungen der Informationsinfrastruktur im Rahmen einer nach- 
haltigen Finanzierung der Wissenschaft dienen. 
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Abstract: Der Artikel beleuchtet relevante aktuelle Entwicklungen in Deutschland 
auf der Ebene der Nationalen Forschungsdateninfrastruktur und der Bundeslander. 
Dabei wird auf die damit verbundenen Herausforderungen eingegangen und das 
Spannungsfeld zwischen lokalen Anforderungen und fachwissenschaftlichen Com- 
munities mit internationaler Anbindung betrachtet. 


Einleitung 


Es ist herausfordernd, bei diesem sehr dynamischen und komplexen Themenfeld 
tiberhaupt einen Ausblick zu wagen. Trotzdem soll basierend auf aktuellen Entwick- 
lungen, die die nächsten Jahre — wenn nicht sogar Jahrzehnte - prägen werden, der 
Versuch unternommen werden, einen Blick in die nahe Zukunft zu werfen und aus 
heutiger Sicht (Stand August 2020) die mittel- bis langfristigen Herausforderungen 
zum Abschluss dieses Handbuchs zu skizzieren. 


1 Nationale Forschungsdateninfrastruktur (NFDI) 


Mit dem Beschluss der Gemeinsamen Wissenschaftskonferenz (GWK) im November 
2018 hat sich die Bundesrepublik Deutschland das Ziel gesetzt, eine Nationale For- 
schungsdateninfrastruktur' (NFDI) zu etablieren. Die Diskussion um den Umgang 
mit Forschungsdaten in einer digital geprägten Wissenschaftswelt hat damit aber 
weder begonnen noch ihr Ende gefunden; es handelt sich dennoch um einen für 
das föderale Wissenschaftssystem wichtigen Meilenstein, der den politischen Willen 
zum gemeinsamen Handeln manifestiert. Die Entwicklung, die sich herausbilden- 
den Strukturen und der aktuelle Stand sollen im Folgenden dargestellt werden. 


1 S. https://www.gwk-bonn.de/themen/weitere-arbeitsgebiete/informationsinfrastrukturen-nfdi/. 
Letztes Abrufdatum der Internet-Dokumente ist der 15.11.2020. 
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1.1 Entwicklung bis zur NFDI 


Die Diskussion um den Umgang mit digitalen Forschungsdaten von der Erhebung 
bis zur Archivierung und Nachnutzung beinhaltet stets zwei Ebenen. Zum einen 
können mit Hilfe veröffentlichter Forschungsdaten daraus abgeleitete wissenschaft- 
liche Ergebnisse grundsätzlich auch von anderen verifiziert werden. Zum anderen 
sind Datenerhebungen, ganz profan gesehen, meist teuer, ethisch problematisch 
oder nur einmalig möglich, so dass eine Nachnutzung das Verhältnis von Mittelein- 
satz zu gesellschaftlichem Nutzen grundsätzlich verbessern kann. Selbstverständ- 
lich ist es dafür notwendig, dass der Umgang mit Forschungsdaten dafür — eben- 
falls — grundsätzlich und weltweit geregelt werden muss. 

Vor dem Hintergrund der damit verbundenen organisatorischen, fachlichen 
und technischen Herausforderungen gab und gibt es viele weltweite, nationale, re- 
gionale und lokale Initiativen und Projekte. Leider kann das Engagement unzähli- 
ger Personen hier nur unzureichend gewürdigt werden, aber einige Entwicklungen 
sollen exemplarisch benannt werden, um zu zeigen vor welchem Hintergrund und 
in welchem Zusammenhang die NFDI entstand und zukünftig operieren wird. Bei- 
spielsweise hat sich 2013 die Research Data Alliance? (RDA) als bottom-up arbeiten- 
der, globaler und disziplinübergreifend operierender Zusammenschluss von Institu- 
tionen und Mitgliedern gegründet, der sich weltweit in Arbeitsgruppen organisiert 
und Empfehlungen erarbeitet. Ebenfalls 2013 hat die Deutsche Forschungsgemein- 
schaft (DFG) das Förderprogramm „Informationsinfrastrukturen für Forschungsda- 
ten?“ aufgelegt, 2018 positiv evaluiert und weiterhin als Förderprogramm im Reper- 
toire. Ebenfalls 2013 wurde das Wiki forschungsdaten.org gegründet, welches zu- 
sammen mit forschungsdaten.info national bisher Informationen und Initiativen 
gebündelt hat. 2016 veröffentlichte die Europäische Kommission das Konzept der 
European Open Science Cloud (EOSC)*. Ein Vorschlag für die Umsetzung der EOSC 
stellt die wiederum bottom-up strukturierte GO FAIR? Initiative dar, die die soge- 
nannten FAIR Prinzipien als Grundsätze für die Wiederverwendbarkeit von For- 
schungsdaten in den Mittelpunkt stellt. FAIR steht dabei für Findable, Accessible, 
Interoperable und Reusable. Diese Prinzipien gewährleisten den disziplinen- und 
länderübergreifenden Zugang zu Daten und ihre Nutzbarmachung. 

In einer nationalen Scharnierfunktion zwischen Wissenschaft und Politik hat 
die GWK - sozusagen top-down in Deutschland - im Jahr 2014 den Rat für Informa- 
tionsinfrastrukturen (RfII)° eingesetzt. In seiner ersten Amtsperiode hat dieser sich 


2 S. https://rd-alliance.org/. 

3 S. https://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/forschungs- 
daten/. 

4 S. https://ec.europa.eu/newsroom/dae/document.cfm?doc_id=15266. 

5 S. https://www.go-fair.org/. 

6 S. http://www.rfii.de/de/start/. 
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intensiv mit dem Thema Forschungsdaten beschäftigt und in seinem ersten Positi- 
onspapier’ „Leistung aus Vielfalt“ (2016) das Thema aufgearbeitet. Neben einer 
Analyse liefert das Positionspapier insbesondere auch insgesamt 13 Empfehlungen 
zu Prozessen, Strukturen und Finanzierung des Forschungsdatenmanagements in 
Deutschland für alle beteiligten Akteure. Der Rat schlug zur Überwindung der bishe- 
rigen fragmentierten und nicht nachhaltig gesicherten Strukturen und Initiativen in 
Deutschland die NFDI als (dauerhaft) geförderte verteilte nationale Infrastruktur 
vor, die sich um Abstimmung und Koordination sowie die Verstetigung der projekt- 
förmig finanzierten, aber dauerhaft notwendigen Dienste im Bereich des For- 
schungsdatenmanagements kümmern soll. 

Der Aufbau dieser NFDI soll nach Empfehlung des RfII wissenschaftsgetrieben 
sein und in der Zielvorstellung so den unterschiedlichen Herausforderungen der he- 
terogenen Fachwissenschaften bezogen auf das Forschungsdatenmanagement effi- 
zient und doch passgenau begegnen. Damit liegt die NFDI als verteilte, aber ver- 
netzte Infrastruktur von Datenerzeugenden und Datennutzenden quer zu den 
bereits bestehenden Säulen im Wissenschaftssystem und soll bundesweit eine ver- 
gleichbar gute Versorgung aller datenintensiven Fächer in Bezug auf Forschungsda- 
ten realisieren. Weil Wissenschaft nur global denkbar ist, muss die NFDI gerade 
trotz des nationalen Auftrags international anschlussfähig sein und als deutsch- 
landweiter starker Knoten der EOSC agieren. „Leistung durch Vielfalt“ und weitere 
Folgeempfehlungen des RfII wurden nicht nur in Deutschland mit großem Nachhall 
aufgenommen und haben als Folge dazu geführt, dass am 26.11.2018 von der GWK 
das neuartige Förderprogramm „NFDI“ per Bund-Länder-Vereinbarung (BLV) ge- 
schlossen wurde®. Als Rahmenbedingungen wurde das Finanzvolumen von jährlich 
bis zu 90 Mio. Euro zwischen 2019 und 2028 sowie insgesamt bis zu 30 zu fördernde 
fachwissenschaftliche Konsortien über drei Ausschreibungsrunden festgelegt. Die 
Finanzierung wird gemeinsam vom Bund und den Ländern getragen. Der Abschluss 
dieser Vereinbarung muss als Meilenstein in der Entwicklung im deutschen Wissen- 
schaftssystem und als klares Commitment für eine nationale Aufgabe gesehen wer- 
den. 


1.2 Ziele und Struktur der NFDI 


In der BLV zum Aufbau der NFDI wurden auch die Ziele und die Struktur der NFDI? 
bereits festgelegt. Die GWK folgt inhaltlich damit den Empfehlungen des RfII. Die 
Durchführung des Ausschreibungs- und Begutachtungsverfahrens entsprechend 


7 S. https://d-nb.info/1104292440/34. 
8 S. https://www.gwk-bonn.de/fileadmin/Redaktion/Dokumente/Papers/NFDI.pdf. 
9 S. https://www.nfdi.de/. 
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der Vereinbarung wird in die Hand der DFG gelegt, die Begutachtung folgt den Prin- 
zipien eines wissenschaftsgeleiteten Verfahrens, in dem die Qualität der Anträge 
vor dem Hintergrund der Ausschreibungskriterien von Forschenden und Infrastruk- 
turbetreibern bewertet wird. Anschließend entscheidet die GWK auf Grundlage der 
Förderempfehlung der DFG und einem positiven Votum aus dem Begutachtungsver- 
fahren über die Aufnahme von Konsortien in die NFDI. Eine wichtige Rolle im Be- 
gutachtungsverfahren spielt das NFDI-Expertengremium!®, welches in der Logik ei- 
ner vergleichenden übergeordneten Prüfgruppe die Bewertung aller Anträge auf der 
Grundlage der fachwissenschaftlichen, informationstechnischen und strukturbezo- 
genen Begutachtung vornimmt sowie die Formulierung der Förderempfehlungen an 
die GWK formuliert. 

Konsortien sind das wissenschaftsbezogene Strukturelement der NFDI. Sie wer- 
den in der BLV (und vorher schon vom RfII) definiert: 


„Konsortien sind auf langfristige Zusammenarbeit angelegte Zusammenschlüsse von Nutzern 
und Anbietern von Forschungsdaten wie staatliche und staatlich anerkannte Hochschulen, au- 
ßeruniversitäre Forschungseinrichtungen, Ressortforschungseinrichtungen, Akademien und 
andere öffentlich geförderte Informationsinfrastruktureinrichtungen. Sie sind in der Regel 
nach Fachgruppen bzw. Methoden organisiert, ohne Vorgaben für ihre institutionelle Zusam- 
mensetzung. [...] Die Konsortien stellen die Sprech- und Handlungsfähigkeit in der Partner- 
schaft zwischen wissenschaftlicher Fachgemeinschaft und beteiligten Infrastrukturbetreibern 
her; sie entwickeln und fördern eine Kultur des Daten-Teilens und der Informationskompetenz 
gemäß den FAIR-Prinzipien; sie tragen Sorge dafür, dass technische Dienste für die Datenbe- 
reitstellung, -archivierung und -erschließung aufgebaut, gepflegt und die dafür notwendigen 


Datenspeicherungs-und Hardware-Kapazitäten zur Wahrnehmung der nationalen Aufgaben 


angepasst werden“. 


Konsortien orientieren sich nach den Empfehlungen des RfII und des NFDI-Exper- 
tengremiums der DFG an thematisch-fachlichen Domänen, deren Granularität be- 
wusst nicht festgelegt ist. Sie haben dafür die relevanten Akteure zusammengebun- 
den und sorgen so für Sprechfähigkeit und Normbildung innerhalb der Domäne. Sie 
sind auf Dauer angelegt, sollen aber dynamisch auf fachliche Anforderungen re- 
agieren können und werden regelmäßig evaluiert. Ihre nachhaltigen Dienste sind 
ebenfalls nicht einheitlich festgelegt, da sie sich an den Bedarfen ihrer Community 
ausrichten sollen. Zusätzlich zu der Aufgabe, die Domäne oder Community passge- 
nau abzuholen und für die Zukunft standardisierend zu wirken, haben die Konsor- 
tien auch Aufgaben in der NFDI. Alle Konsortien wirken synergetisch zusammen, 
um generische, über ein Konsortium hinausgehende, sogenannte Querschnittsthe- 
men zu bearbeiten. Bewusst wurden in den bisherigen zwei Ausschreibungsrunden 


10 S. https://www.dfg.de/dfg_profil/gremien/gremium/index.jsp?id=426076674. 
11 S. BLV-Vereinbarung Paragraph 9 https://www.gwk-bonn.de/fileadmin/Redaktion/Dokumente/ 
Papers/NFDI.pdf. 
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(Stand August 2020) keine Konsortien zu Querschnittsthemen zur Antragstellung 
aufgefordert. 

Die BLV legt als zusätzliche Strukturelemente der NFDI die Konsortialversamm- 
lung, den Wissenschaftlichen Senat sowie das Direktorat (angesiedelt am KIT!) 
fest, die gemeinsam die NFDI fiir Deutschland gestalten. Der seit Anfang 2020 einge- 
setzte Direktor der NFDI hat mit dem Griindungsdirektorat einen Entwurf fiir die 
Rechtsform” der NFDI vorgelegt, der von der GWK am 26.06.2020 verabschiedet 
wurde. Es handelt sich um eine Vereinsstruktur, in der geförderte Konsortien per se 
Mitglied sind, aber auch andere juristische Personen Mitglied werden können. Zu- 
sätzlich zu den Strukturelementen aus der BLV sollen ein Kuratorium und Sektio- 
nen etabliert werden. Sektionen dienen der inhaltlichen disziplinübergreifenden Zu- 
sammenarbeit der sogenannten „Konsortien nach Satzung“ und sollen alle Organe 
des Vereins insbesondere bei der Vorbereitung der Entscheidungsvorschläge zu 
konsortienübergreifenden Standards, Metadatenstandards und Formaten unterstüt- 
zen. Konsortien nach Satzung orientieren sich an den geförderten Konsortien nach 
der BLV, können aber weitere Vereinsmitglieder integrieren und bieten so einen An- 
satz, Querschnittsthemen zu bearbeiten. 

Um die notwendige Vernetzung von möglichen Konsortien und die Herausbil- 
dung einer NFDI frühzeitig zu unterstützen, hat die DFG bisher in den Jahren 2019'* 
und 2020” jeweils zu einer NFDI-Konferenz als Vernetzungsformat eingeladen. Die- 
ses Format wurde sehr intensiv und positiv aufgenommen. Das Ziel einer NFDI als 
verteilte, aber auch vernetzte Struktur, wird auch in dem für die DFG offeneren Be- 
gutachtungsverfahren verfolgt. So wird z.B. das Votum der Begutachtungsgruppe 
den antragstellenden Konsortien so frühzeitig mitgeteilt, dass sie vor der endgiilti- 
gen Entscheidung im NFDI-Expertengremium noch Stellung zu etwaigen offenen 
Fragen nehmen können. Trotzdem bleibt es eine Herausforderung, in einem grund- 
sätzlich wettbewerblich orientierten Verfahren bei begrenzten Ressourcen eine gut 
abgestimmte nationale Gesamtstruktur zu entwickeln. Bei der Breite der NFDI-Kon- 
sortien stellt auch die Begutachtung eine Herausforderung dar, bei der bewusst und 
notwendigerweise auch internationale Expertinnen und Experten eine große Rolle 
spielen. Diese wiederum sind mit dem föderalen deutschen Wissenschaftssystem 
mit länderfinanzierten Hochschulen und außeruniversitären Forschungseinrichtun- 
gen weniger vertraut. 


12 S. https://www.kit.edu/index.php. 

13 S. https://cdn.website-editor.net/25abfc2078d74313bbe63818c335df0e/files/uploaded/Satzung% 
2520NFDI%2520eV_final.pdf. 

14 S. https://www.dfg.de/foerderung/programme/nfdi/konferenz_2019/index.html. 

15 S. https://www.dfg.de/foerderung/programme/nfdi/konferenz_2020/index.html. 
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1.3 Stand der NFDI 


Zum aktuellen Zeitpunkt (August 2020) ist die erste Förderrunde der NFDI abge- 
schlossen und die zweite Förderrunde angelaufen. Im Zuge der ersten Förderrunde 
waren bis zum 15.10.2019 insgesamt 22 Anträge aus insgesamt 142 Einrichtungen 
eingegangen." In diesem Überblick der DFG wird festgehalten: 


„Die meisten eingegangenen Anträge sind primär den Lebenswissenschaften, die wenigstens 
den Ingenieurwissenschaften zuzuordnen. Acht der 22 Anträge sind den Lebenswissenschaften 
zugeordnet (36 Prozent). Sechs Anträge stammen primär aus den Naturwissenschaften (27 Pro- 
zent) und fünf Anträge beschreiben primär geistes- und sozialwissenschaftliche Vorhaben (23 
Prozent). Lediglich drei Anträge sind primär in den Ingenieurwissenschaften angesiedelt (14 
Prozent). Eine nahezu identische fachliche Verteilung findet sich im jährlichen Antragsvolu- 
men nach Wissenschaftsbereich.“ 


Insgesamt werden in der ersten Runde der NFDI nun neun Konsortien” gefördert. 
Diese verteilen sich wie folgt auf die Wissenschaftsbereiche'®: Vier Konsortien aus 
den Lebenswissenschaften (45 Prozent), zwei Konsortien aus den Geistes- und Sozi- 
alwissenschaftlichen (22 Prozent aller geförderten Konsortien), zwei Konsortien aus 
den Naturwissenschaften (22 Prozent) und ein Konsortium aus den Ingenieurwis- 
senschaften (11 Prozent). 

In dieser ersten Runde hat insbesondere die NFDI-Konferenz im Sommer 2019 
strukturbildend gewirkt, waren dort noch insgesamt 57 Konsortien vertreten, so wa- 
ren es im Juli 2020 bei der zweiten Konferenz” nur noch 39. Davon haben sich eini- 
ge Konsortien den sogenannten Querschnittsthemen verschrieben, deren Diskussi- 
on auf jeder NFDI-Konferenz einen breiten Raum einnahmen, weil es zum jetzigen 
Zeitpunkt keine Fördermöglichkeiten für Querschnittskonsortien im Rahmen der 
BLV gibt, diese Themen aber eine wichtige Rolle beim Aufbau spielen. 

Zusammengefasst wird der Stand zum jetzigen Zeitpunkt differenziert bewertet: 
Auf jeden Fall ist es sehr gut und wichtig, dass es in Deutschland das Förderinstru- 
ment NFDI gibt. Auch von anderen Ländern wird Deutschland hier als handlungsfä- 
hig und richtungsweisend wahrgenommen. Der eingeschlagene Prozess bietet mit 
dem wissenschaftsgeleiteten Verfahren die Chance, den eingeforderten und not- 
wendigen Kulturwandel bezüglich des Forschungsdatenmanagements tatsächlich 
und messbar voranzutreiben. Die verteilte und vernetzte Struktur bietet auch die 


16 S. https://www.dfg.de/download/pdf/foerderung/programme/nfdi/191212_nfdi_statistik_ant- 
ragseingang.pdf. 

17 S. https://www.dfg.de/foerderung/programme/nfdi/. 

18 S. https://www.dfg.de/download/pdf/foerderung/programme/nfdi/20200626_nfdi_foerderent- 
scheidungen.pdf. 

19 S. https://www.dfg.de/download/pdf/foerderung/programme/nfdi/nfdi_konferenz_2020/vor- 
trag_eickhoff.pdf. 
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Chance, bisherige erfolgreiche Verbiinde weiter zu entwickeln. Es bleibt die Heraus- 
forderung, die Vielfalt tatsächlich als Leistung und nicht als Hemmschuh zu syste- 
matisieren. Ob daraus wirkliche EINE nationale Forschungsdateninfrastruktur ent- 
steht, ist heute zu hoffen. Die nächsten Monate werden sicherlich mit darüber 
entscheiden, ob und wie die u.g. Herausforderungen systematisch und erfolgreich 
adressiert werden können. 


2 Forschungsdatenmanagement in den Bundes- 
ländern 


Die 16 Bundesländer übernehmen nicht nur eine gestaltende, sondern auch die fi- 
nanzielle Verantwortung für den Aufbau der NFDI in Deutschland. Dies liegt zum 
einen darin begründet, dass zahlreiche Bundesländer bereits seit einigen Jahren in 
die Digitalisierung von Forschung (und Lehre) mit spezifischen Förderprogrammen 
investieren, zum anderen ist Bildung (im weitesten Sinne) immer noch Länderange- 
legenheit und damit einhergehende finanzielle Investitionen sichern naturgemäß 
Wettbewerbsvorteile der eigenen Hochschulen im Bundesland. So mag es auch 
nicht verwundern, dass drei Bundesländer, die mit ihrer Bewerbung für die Ansied- 
lung des NFDI-Direktorats in ihrem Bundesland in die Endauswahl gekommen sind, 
bereits langjährige, millionenschwere Förderprogramme im Vorfeld aufgelegt ha- 
ben. Konsequenterweise sind dies auch die Bundesländer, die bereits frühzeitig mit 
eigenen Bundeslandinitiativen zu Forschungsdatenmanagement an den Start ge- 
gangen sind. 


2.1 Beispiele für vorbereitende Projekte und Initiativen 


Im Folgenden können nicht alle FDM-relevanten Initiativen und Projekte in den 16 
Bundesländern beschrieben werden. Die Auswahl konzentriert sich daher auf 
besonders einschlägige Bundesländer, die frühzeitig und konsequent über Jahre 
hinweg in verschiedene Bereiche der Digitalisierung (z. B. Open Access, Forschungs- 
daten, Lizenzierung, Forschungsdatenrepositorien etc.) mittels dedizierter Förder- 
programme investiert haben. 

Das Ministerium für Wissenschaft, Forschung und Kunst in Baden-Württemberg 
veröffentlichte bereits im Mai 2014 die Broschüre „Science — Wissenschaft unter 
neuen Rahmenbedingungen: Fachkonzept zur Weiterentwicklung der wissenschaft- 
lichen Infrastruktur in Baden-Württemberg?°“, die von einer durch das Wissen- 


20 S. https://mwk.baden-wuerttemberg.de/de/service/publikation/did/e-science/. 
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schaftsministerium eingesetzten Expertenkommission erarbeitet wurde und entlang 
von sechs Arbeitsgruppen mit den thematischen Schwerpunkten Lizenzierung, Digi- 
talisierung, Open Access, Forschungsdatenmanagement, Virtuelle Forschungsum- 
gebungen strategische Konzepte fiir jedes Handlungsfeld entwickelt hat. Auf dieser 
Basis förderte das Ministerium in Baden-Wiirttemberg in den letzten Jahren weitere 
sog. E-Science-Projekte, die in ihrer Vielfalt und thematischen Schwerpunktsetzung 
bemerkenswert sind. Dabei verfolgt Baden-Württemberg einen dezentralen und par- 
tizipatorischen Ansatz, so dass zahlreiche - wenn nicht alle - Hochschulen in ir- 
gendeiner Form an verantwortlicher Stelle aktiv sind und in ein Netzwerk auf Bun- 
deslandebene einbezogen sind. 

In Hessen ist insbesondere das Forschungsförderungsprogramm „Landes-Offen- 
sive zur Entwicklung Wissenschaftlich-ökonomischer Exzellenz“*! (LOEWE) zu nen- 
nen, welches seit 2008 als wissenschaftspolitischer Impulsgeber für die hessische 
Forschungslandschaft initiiert wurde. Von 2008 bis 2019 standen rund 869 Mio. 
Euro Landesmittel für die drei Förderlinien (Zentren, Schwerpunkte, KMU-Hoch- 
schule-Verbundprojekte) zur Verfügung. Die bisher 15 LOEWE-Zentren und 60 LO- 
EWE-Schwerpunkte wurden von einer eigens eingerichteten LOEWE-Geschäftsstelle 
im Hessischen Ministerium für Wissenschaft und Kunst administrativ begleitet, wo- 
hingegen die 310 Verbundprojekte mit den klein- und mittelständischen Unterneh- 
men (KMU) von der Hessen Agentur GmbH betreut werden. Das Bundesland Hessen 
verfolgt mit diesem Ansatz in den bisherigen zwölf Förderstaffeln die dezidierte Ein- 
beziehung der KMU. Auch für das Jahr 2020 und folgende Jahre stehen nicht uner- 
hebliche Fördermittel bereit. Allerdings werden im LOEWE-Förderprogramm auch 
nur in geringem Umfang Vorhaben mit einer Ausrichtung auf E-Science, Open Ac- 
cess etc. gefördert. Nichtsdestotrotz dürfte dieses Programm wesentlich dazu beitra- 
gen, dass sich in den letzten Jahren in Hessen kooperative Strukturen herausgebil- 
det haben, die eine partizipatorische Bearbeitung von gemeinsamen Themen- 
schwerpunkten erlauben, wie auch HeFDI (vgl. Kap. 2.2.) zeigt. 

In Nordrhein-Westfalen haben sich zu Beginn des Jahres 2017 (bisher) 42 Hoch- 
schulen in einer Kooperationsvereinbarung” zur „Digitalen Hochschule NRW (DH. 
NRW)“ mit dem Ziel zusammengeschlossen, Digitalisierungsprozesse und dafür 
nötige Maßnahmen im NRW-Hochschulwesen weiterzuentwickeln. Diese Kooperati- 
onsvereinbarung berücksichtigt dabei von Beginn an die drei unterschiedlichen 
Hochschularten in NRW und wurde Ende 2018 mittels einer extra formulierten sog. 
Verfahrensordnung™ organisatorisch und strukturell gestärkt. Darin wird die koope- 


21 S. https://wissenschaft.hessen.de/wissenschaft/landesprogramm-loewe. 

22 S. https://www.dh.nrw/fileadmin/user_upload/dh-nrw/pdf_word_Dokumente/DH.NRW_Koo- 
perationsvereinbarung.pdf. 

23 S. https://www.dh.nrw/. 

24 S. https://www.dh.nrw/fileadmin/user_upload/dh-nrw/pdf_word_Dokumente/DH.NRW_Ver- 
fahrensordnung.pdf. 
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rative Zusammenarbeit der Gremien fixiert. NRW hat im Vergleich zu anderen Bun- 
deslandern die Zusammenarbeit der Hochschulen im eigenen Bundesland am 
stärksten formalisiert und auf eine belastbare Governance-Struktur gestellt. Flan- 
kiert werden die Maßnahmen rund um die Digitale Hochschule NRW durch eine Rei- 
he von Förderprojekten, von denen hier nur exemplarisch einige mit Start 2020 ge- 
nannt werden sollen: ,,Digitale Werkzeuge fiir die Hochschullehre“, ,,E-Drittmittel- 
akte NRW“ oder „Moodle NRW“. Projekte mit Bezug zu FDM sind zum Beispiel 
FDM-Scouts.nrw explizit für die Fachhochschulen in NRW oder auch Data Literacy 
Education.nrw. NRW steht als bevölkerungsreichstes Bundesland vor der Herausfor- 
derung, eine wesentlich größere Anzahl an Hochschulen mit auf den digitalen Weg 
zu nehmen und investiert daher entlang zahlreicher Förderprogramme verschiede- 
ne Verbundvorhaben mit jeweils einer Hochschule als Konsortialleitung. Eine ei- 
gens eingerichtete „Landesinitiative FDM“” fungiert als „zentrale Koordinierungs- 
stelle, um die Hochschul- und Landesaktivitäten im Kontext von FDM zu bündeln 
und strategisch weiterzuentwickeln“. 

So unterschiedlich die Ausgangslagen in den drei hier exemplarisch beschriebe- 
nen Bundesländern bezüglich Anzahl der Hochschulen, Digitalisierungsstrategie 
auf Bundeslandebene, Engagement im Bereich Forschungsdaten(management) etc. 
auch sind, so investieren diese Bundesländer nicht unerhebliche Fördermittel, um 
ihre Hochschulen bei dem dringend benötigten digitalen Kulturwandel und speziell 
auch im Umgang mit Forschungsdaten zu unterstützen. 


2.2 Bundesländer mit Projekten und Initiativen im Bereich 
Forschungsdatenmanagement 


Zahlreiche Bundesländer haben mit eigenen, durch ihr jeweiliges Ministerium geför- 
derte, Initiativen zu Forschungsdatenmanagement den ersten Schritt hin zu koordi- 
nierenden und vernetzenden Maßnahmen zum Umgang mit Forschungsdaten getä- 
tigt. Im Folgenden werden zunächst die Bundesländer vorgestellt, die durch eine 
dezidierte Förderung eine FDM-Initiative in ihrem Bundesland aufbauen, bevor 
nachfolgend auch weitere Projekte und Entwicklungen aus den anderen Bundeslän- 
dern (soweit bekannt) vorgestellt werden. 

Die folgenden sechs Bundesländer befinden sich zurzeit (Stand August 2020) in 
einer Förderphase für den Aufbau bzw. die Weiterentwicklung der eigenen Initiative 
zu FDM: 


25 S. https://www.fdm.nrw/. 
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Baden-Wiirttemberg 


Baden-württembergisches Begleit- und Weiterentwicklungsprojekt für Forschungs- 

datenmanagement (bw2FDM), https://bwfdm.scc.kit.edu/, gefördert vom Ministeri- 

um für Wissenschaft, Forschung und Kunst Baden-Württemberg 

-  Förderzeitraum: nach zwei Vorgänger-Förderphasen seit Mai 2019 bis voraus- 
sichtlich April 2023 

-  Fördervolumen: keine öffentlichen Angaben 


Schwerpunkte (exemplarisch): 

— Redaktion und Weiterentwicklung von forschungsdaten.info 

— Bereitstellen von Workflows, Analysewerkzeugen und Dienste-Portfolios für 
einzelne Disziplinen 

-  Informationsvermittlung (Schulungen, Webinare), Beratungen 

- Koordinierung und Organisation des Arbeitskreises FDM in BW 

- Vernetzung mit den anderen Landesinitiativen 

- Koordination der Querschnittsthemen der vier baden-württembergischen Sci- 
ence Data Center 

- Planung und Durchführung der Konferenz „E-Science-Tage“ 


Brandenburg 


Forschungsdatenmanagement in Brandenburg: Technologien, Kompetenzen, Rah- 

menbedingungen (FDM-BB), http://forschungsdaten-brandenburg.de, gefördert 

vom Ministerium für Wissenschaft, Forschung und Kultur (MWFK) 

-  Förderzeitraum: seit November 2019 bis voraussichtlich Dezember 2020, Nach- 
folgeantrag in Bearbeitung 

-  Fördervolumen: ca. 110.000 Euro 


Schwerpunkte (exemplarisch)** 

— Aufbau Netzwerk FDM: Acht Hochschulen in Brandenburg, aber auch außeruni- 
versitäre Forschungseinrichtungen, sind in einer Arbeitsgruppe koordiniert und 
tauschen sich monatlich aus 

- Start von Diskussionen im Bereich Institutionalisierung FDM in den Hochschu- 
len unter Einbeziehung der brandenburgischen Landesrektorenkonferenz bzw. 
Vize-Präsidentinnen und -Präsidenten für Forschung/Entwicklung/Transfer 

- Schulungen (bspw. mittels Webinare), Beratung, Unterstützung Forschende etc. 

- Identifikation kooperativ zu nutzender Dienste (bspw. FDM-Werkzeug wie RD- 
MO und Treffen von bundeslandweiten Absprachen) 


26 Vgl. Wuttke et al. 2020, Schneemann et al. 2020 und Radke et al. 2020. 
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— Bedarfs- und Umfeldanalyse für die Formulierung von Handlungs- und Imple- 
mentierungsempfehlungen an das MWFK mit dem Ziel, eine FDM-Policy fiir 
Brandenburg zu entwickeln 

- Vernetzung und Austausch mit anderen Bundeslandinitiativen, der NFDI sowie 
international (z. B. GoFAIR, RDA, EOSC etc.) 


Hamburg 


Hamburg Open Science (HOS), https://fdm.hos.tuhh.de/, gefördert von der Freie 

und Hansestadt Hamburg 

-  Förderzeitraum: seit Januar 2018 bis voraussichtlich Ende 2020 

-  Fördervolumen; 3,4 Mio. Euro für Forschungsdaten (für Open Science insge- 
samt ca. 15 Mio. Euro) 


Schwerpunkte (exemplarisch): 

- Beratungen, Schulungen 

- Aufbau von Repositorien für Forschungsdaten 

- Umsetzung der Vorgaben der Forschungsförderer 

- Aufbau und Einführung von FDM an den Hamburger Hochschulen 


Hessen 


Hessische Forschungsdateninfrastrukturen (HeFDI), https://www.uni-marburg.de/ 

de/hefdi, gefördert vom Hessisches Ministerium für Wissenschaft und Kunst 

(HMWK) 

-  Förderzeitraum: seit Mai 2016 bis voraussichtlich Dezember 2020, Nachfolgean- 
trag in Bearbeitung 

-  F6rdervolumen: 3,4 Mio. Euro 


Schwerpunkte (exemplarisch): 

- Dienste und Werkzeuge (z B. Sync & Share-Dienst via Hessenbox, RDMO-Instan- 
zen für HeFDI-Hochschulen) 

- Beratungen, Schulungen (z.B. Forschungsdatenkurse für Studierende, Umgang 
mit sensiblen Forschungsdaten) 

- Mitwirken in Steuerungsgruppe des Projekts Langzeitverfügbarkeit an hessi- 
schen Hochschulen (LaVaH) 

- Beteiligung DINI/nestor-AG Forschungsdaten, Unterstützung Aufbau NFDI-Kon- 
sortien, Unterstützung des Serviceverzeichnis Forschungsdaten, Beteiligung Re- 
search Data Alliance (RDA) 

- Aufbau FDM-unterstützender Strukturen an allen Standorten mit der Förderung 
der Zusammenarbeit und des fachlichen Austauschs inklusive des Schaffens 
von Synergie und Wissenstransfer 


548 —— Heike Neuroth und Gudrun Oevel 


Nordrhein-Westfalen 


Landesinitiative für Forschungsdatenmanagement (fdm.nrw), https://www.fdm. 
nrw/, gefördert vom Ministerium für Kultur und Wissenschaft 

-  Förderzeitraum: seit September 2019 bis voraussichtlich Dezember 2021 

—  Fordervolumen; ca. 1,2 Mio. Euro 


Schwerpunkte (exemplarisch): 

— Schulungen, Weiterbildung (z. B. Newcomer-Track, Advanced-Track, FDM-Zerti- 
fikatskurs) 

- Bereitstellung von Tools & Materialien 

- Beratungen (z. B. FDM-Prozess-Begleitung mit Fokus Fachhochschulen) 

- Informationsvermittlung und Begleitung von Akteurinnen und Akteuren beim 
Aufbau der NFDI 

- Vernetzung innerhalb des Bundeslands, mit anderen Bundeslandinitiativen 
und international 


Thüringen 


Kompetenznetzwerk Forschungsdatenmanagement der Thüringer Hochschulen 
(TKFDM), https://forschungsdaten-thueringen.de, gefördert vom Thüringer Ministe- 
rium für Wirtschaft, Wissenschaft und Digitale Gesellschaft (TMWWDG) 

-  Förderzeitraum: von Oktober 2018 bis voraussichtlich Oktober 2021 

-  Férdervolumen: 600.000 Euro 


Schwerpunkte (exemplarisch): 

—  Materialsammlungen, Best Practice Reihe, Checklisten, Handreichungen 

- Thüringer FDM-Tage (Datenpreis-Verleihung) 

— Workshops, Schulungen, Coffee Lectures, Webinare 

- Beratungen 

- Vernetzung innerhalb des Bundeslands, bundeslandübergreifend (z B. DINI/ 
Nestor) und international (z. B. GO FAIR, RDA) 

-  Fortschreiben der Digitalisierungsstrategie 2021-2023 


Sachsen 


Auch wenn es in Sachsen noch keine explizit geförderte Bundeslandinitiative zu 
FDM gibt, so scheint Sachsen nach bisherigem Kenntnisstand das nächste, vielver- 
sprechende Bundesland mit einer potentiell zukünftigen ministeriellen Förderung 
zu sein und wird daher hier auch kurz vorgestellt. 
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Forschungsdatenmanagement in Sachsen (SaxFDM), https://saxfdm.de/, 

Forderantrag in Vorbereitung 

—  Projektlaufzeit ohne Förderung bisher, aber seit 2019 als Bottom-Up-Initiative 
von Forschungseinrichtungen, Forschenden und unter Beteiligung des Sächsi- 
schen Ministeriums für Wissenschaft und Kultur (SMWK) 


Schwerpunkte (exemplarisch) 

- Etablierung eines Expertennetzwerks für den Aufbau und Betrieb landesweiter 
Dienste zu verschiedenen Aspekten des FDM 

- Schulungen, Weiterbildungen 

- Vernetzung innerhalb des Bundeslands und bundesweit (fachliche FDM-Grup- 
pen, RDA-DE, DINI/nestor) 

-  Langfristiges Ziel: Schaffen einer trag- und zukunftsfähigen Organisationsstruk- 
tur einschließlich kooperativem Einsatz von personellen und finanziellen Res- 
sourcen (zentraler Ansprechstelle) 

- Strategische Planung der Unterstützung von gemeinsamen Diensten und tech- 
nischen Infrastrukturen 

- Etablierung, Umsetzung und Koordination einer landesweiten Forschungsda- 
tenstrategie 


Weitere Ansätze 


Auch in anderen Bundesländern gibt es vielversprechende Ansätze im Bereich FDM, 
die zum Teil hervorragend als Basis für eine bundeslandweite Initiative dienen kön- 
nen. Zu nennen sind insbesondere Aktivitäten in den nachfolgenden Bundeslän- 
dern: 

In Bayern fördert das Bayerisches Staatsministerium für Wissenschaft und 
Kunst (MWK Bayern) seit Januar 2018 bis Dezember 2020 das fachwissenschaftliche 
Projekt „eHumanities - interdisziplinär“, welches ebenfalls FDM-spezifische Mate- 
rialien sammelt, Lernmaterialien und -module erstellt und sich innerhalb Bayerns 
sowie bundesweit (z.B. DHd-Verbund) vernetzt. Im Ergebnis sollen auch Empfeh- 
lungen zu FDM in den digitalen Geisteswissenschaften formuliert werden. Als zwei- 
tes vom MWK Bayern gefördertes Projekt zählt „Digitale Langzeitverfügbarkeit für 
Wissenschaft und Kultur in Bayern“, welches vom Juni 2019 bis Mai 2021 mit rund 
410.000 Euro finanziert ist. Es verfolgt vorrangig die Ziele, LZA-Workflows (dezen- 
tral und zentral) zu erstellen, diese technisch umzusetzen, Mustervereinbarung zur 
digitalen Langzeitarchivierung zu erarbeiten sowie ein nachhaltiges Geschäfts- und 
Kostenmodells zu entwickeln. 

In Berlin existiert an zahlreichen Universitäten seit zum Teil vielen Jahren fun- 
dierte Expertise rund um FDM. Im Bereich Open Access werden alle Aktivitäten und 
Angebote im Open Access Büro Berlin gebündelt, wohingegen dies im Bereich FDM 
zum jetzigen Zeitpunkt noch nicht sichtbar ist. Ob eine zukünftige Koordinierung 
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unter dem Dach der ,,Berlin University Alliance“ angesiedelt wird, durch eine the- 
matische Offnung des Open Access Biiros Berlin passiert oder alternative Szenarien 
entwickelt werden, scheint noch unklar zu sein. 

In Bremen hat sich insbesondere die Universität Bremen mit dem im Jahr 2019 
vom RatSWD akkreditiertem Forschungsdatenzentrum (FDZ) Qualiservice um FDM 
verdient gemacht. 

In Mecklenburg-Vorpommern hat sich an der Universitat Rostock die dortige 
Universitatsbibliothek des Themas FDM angenommen und bietet umfangreiche Un- 
terstiitzungen inklusive einer ausfiihrlichen FAQ-Liste etc. an. 

In Niedersachen sind bereits seit einigen Jahren zahlreiche Hochschulen sehr 
aktiv im Bereich Forschungsdatenmanagement. Exemplarisch seien hier die TIB 
Hannover (Leibniz-Informationszentrum Technik und Naturwissenschaften und 
Universitätsbibliothek) mit ihrem Engagement in DOI” genannt oder die Georg-Au- 
gust-Universität Göttingen mit der eResearch Alliance”. Zu Beginn des Jahres 2020 
hat die wissenschaftliche Kommission in Niedersachsen (WKN) eine Arbeitsgruppe 
zum Thema FDM eingerichtet, die beratend Empfehlungen für Niedersachsen erar- 
beiten soll. 

In Rheinland-Pfalz existieren gleich an mehreren Hochschulen bzw. in einem 
Verbund (z.B. Katholische Hochschule Mainz, Johannes Gutenberg-Universität 
Mainz, Servicezentrum eScience, Technische Universität Kaiserslautern) vielver- 
sprechende Ansätze zu FDM, die allerdings bisher auf Bundesland-Ebene noch 
nicht koordiniert bzw. vernetzt zu sein scheinen. 

In Schleswig-Holstein bringt sich die Christian-Albrechts-Universität zu Kiel 
nicht nur bereits seit Jahren aktiv in FDM-Themen ein und stellt umfangreiche Mate- 
rialien auf ihren Seiten zur Verfügung, sondern hat auch als eine der ersten Univer- 
sitäten in Deutschland bereits im Jahr 2015 eine „Leitlinie zum Umgang mit For- 
schungsdaten*™ veröffentlicht. 

Die Bibliothek der Universität des Saarlandes ist ebenfalls seit Jahren aktiv im 
FDM-Kontext unterwegs. So hat die Universität des Saarlandes bereits 2001 folgen- 
den Grundsatz zu Forschungsdaten beschlossen: „Primärdaten, die als Grundlage 
für Veröffentlichungen dienen, sind in derjenigen Einrichtung (Labor, Fachrich- 


27 S. https://www.tib.eu/de/publizieren-archivieren/doi-service. 

28 S. https://www.eresearch.uni-goettingen.de/de/. 

29 Die Wissenschaftliche Kommission in Niedersachsen (WKN) ist ein unabhängiges Expertengre- 
mium, das 1997 auf Kabinettsbeschluss dauerhaft eingerichtet wurde und das die niedersächsische 
Landesregierung in Fragen der Wissenschafts- und Forschungspolitik berät, vgl. www.wk.nieder- 
sachsen.de. 

30 S. http://www.uni-kiel.de/download/pm/2015/2015-408-leitlinie-forschungsdaten.pdf. 
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tung, Klinik), in der sie entstanden sind, fiir zehn Jahre aufzubewahren, soweit dies 
zum Zweck der Nachpriifbarkeit notwendig ist.”'“ 

In Sachsen-Anhalt ist die Martin-Luther-Universität Halle-Wittenberg sowohl 
fachspezifisch mit dem „Historischen Datenzentrum Sachsen-Anhalt? als auch 
Universitätsweit im Rahmen eines Expertennetzwerks zu Forschungsdaten aktiv, 
bei dem Vertreter verschiedener Fachbereiche fachspezifische Bedarfe zentral ab- 
stimmen. 


2.3 Bundesländer mit Projekten und Initiativen im Bereich For- 
schungsdatenmanagement 


Die Mehrheit der 16 Bundesländer hat sich auf den langen Weg gemacht, For- 
schungsdatenmanagement auch auf Ebene der einzelnen Hochschulen zu institutio- 
nalisieren. Dabei werden verschiedene Ansätze in der Umsetzung, thematischen 
Schwerpunktsetzung und unterschiedliche Grade in der Formalisierung erkennbar. 
Nordrhein-Westfalen scheint hier insgesamt mit der Kooperationsvereinbarung und 
den zahlreichen flankierenden Maßnahmen sehr weit zu sein. Zu beobachten ist 
auch ein West-Ost-Gefälle: Während in den sieben östlichen Bundesländern bisher 
nur zwei relativ junge Bundesland-Initiativen gestartet sind, sind diese im Vergleich 
zu den westlichen FDM-Initiativen finanziell auch deutlich schlechter ausgestattet. 
Und auch wenn sich bw2FDM in Baden-Württemberg mit forschungsdaten.info um 
eine Anlaufstelle mit einem Redaktionsteam, in dem alle Bundesländer vertreten 
sind, organisatorisch und inhaltlich verantwortlich zeigt, ist der Grad der Vernet- 
zung der Bundesland-Initiativen untereinander noch nicht wirklich weit vorange- 
schritten. Absprachen über gemeinsam zu entwickelnde Schulungsmaterialien, ko- 
operativ erstellte Informationssammlungen etc. sind nicht zu beobachten. 
Naturgemäß liegen die Schwerpunkte vieler Initiativen und v.a. einzelner Pro- 
jekte in den Bundesländern ohne eigene finanzierte FDM-Initiative auf den Bedarfen 
der eigenen Hochschulen in dem jeweiligen Bundesland. Auch haben einige Bun- 
desländer nur Universitäten und nicht auch Fachhochschulen bzw. Hochschulen 
der Angewandten Wissenschaften etc. im Fokus. Viele Bundeslandinitiativen kon- 
zentrieren sich thematisch in erster Linie auf Qualifizierungsmaßnahmen „vor Ort“, 
d.h. zum Beispiel um Schulungen sowohl der Forschenden als auch Forschungsun- 
terstützenden in zentralen Informationsinfrastruktureinrichtungen wie Bibliothek 
oder Rechenzentrum. Nicht viele Bundesland-Initiativen scheinen bisher mit HPC- 
Anwendern vernetzt zu sein oder die Kooperation zum Beispiel mit der Gauss-Alli- 


31 S. https://www.uni-saarland.de/fileadmin/upload/verwaltung/fundstellen/Forschungsangele- 
genheiten/DB01-342.pdf. 
32 S. https://www.geschichte.uni-halle.de/struktur/hist-data/. 
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anz” zu suchen, obwohl gerade diese Forschergruppen naturgemäß Unmengen an 
Daten produzieren bzw. verarbeiten. 

Festzuhalten bleibt, dass den Bundesland-Initiativen und auch den Einrichtun- 
gen in den Bundesländern ohne eigene FDM-Initiative eine Schlüsselrolle zukommt, 
um die Bewusstseinsbildung und Akzeptanz sowie die dringend benötigte Qualifi- 
zierung aller Beteiligter rund um Forschungsdaten in die Fläche bis hin zu der klei- 
nen Hochschule in eher abgelegenen Regionen voranzutreiben. Nur so können die 
NFDI und die EOSC auf ein breites Fundament gestellt werden. Und nur mit Hilfe 
der Bundesländer können auch Forschende für das Thema FDM sensibilisiert wer- 
den, die sich fachwissenschaftlich perspektivisch keiner der 30 NFDI-Fachkonsorti- 
en anschließen können. 


3 Zukünftige Herausforderungen 


Wie immer bei dem Start großer Initiativen und Förderprogrammen - allein die 
NFDI wird im nächsten Jahrzehnt fast eine Milliarde Euro kosten - scheinen die Her- 
ausforderungen und Risiken zu überwiegen. Nichtdestotrotz sind mit Entwicklun- 
gen dieser Art auch sehr große Chancen verbunden und können im Fall von 
Deutschland tatsächlich einen kulturellen Wandel im Umgang mit digitalen Daten 
bewirken. Im Folgenden werden mehrere Herausforderungen und mögliche Lö- 
sungsansätze sowie offene Fragen beleuchtet. 

Es wird weiterhin für alle Akteurinnen und Akteure notwendig sein, sich immer 
wieder klar zu machen, dass ein systematisches Forschungsdatenmanagement kein 
Selbstzweck ist, sondern für den Forschungsstandort Deutschland, aber auch für je- 
den einzelnen Forschenden zur guten wissenschaftlichen Praxis gehört. Die struktu- 
rierte und standardisierte Beschreibung von Daten(sammlungen) muss selbstver- 
ständlicher Teil des wissenschaftlichen Arbeitens werden und optimalerweise wird 
die Veröffentlichung von Daten ein wesentliches Qualitätskriterium zukünftiger Be- 
rufungsverfahren bei Professorinnen und Professoren. Alle Forschenden und Stu- 
dierenden müssen quasi beim Betreten der akademischen Welt auf selbstverständli- 
che Art und Weise im Umgang mit digitalen Daten geschult werden, es muss also 
Teil ihrer akademischen DNA werden. 

Dies stellt u.a. die Hochschulen vor enorme Herausforderungen: Quasi jeder 
Studiengang muss mindestens ergänzt werden um Module, die FDM zu Thema ha- 
ben. Gänzlich neue Curricula müssen schnellstmöglich mit definierten Abschlüssen 
(z.B. data steward etc.) entwickelt werden, die international anschlussfähig sind. Es 
darf nicht vergessen werden, dass es von der Entwicklung bis hin zu ersten Absol- 


33 S. https://gauss-allianz.de/. 
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ventinnen und Absolventen mit den neuen Kompetenzen und Fähigkeiten mindes- 
tens sechs Jahre vergehen. Es müssen aber nicht nur neue Studiengänge entwickelt 
und etabliert, sondern auch neue Berufsfelder definiert werden. Im Moment scheint 
völlig unklar zu sein, welcher Kompetenzkanon den Begriffen wie z.B. data scien- 
tist, data analyst, data engineer, data manager, data curator, data librarian, data 
steward etc. zugrunde liegt, wie sie sich unterscheiden, wie die Karrierepfade ausse- 
hen und wie deutsche Berufsbezeichnungen entwickelt werden können etc. 

Akademische Ausbildung ist die eine Seite der Medaille, Schulung und Weiter- 
qualifizierung stellt die andere Seite dar. Wie können die unzähligen Mitarbeiten- 
den, die bereits in Lohn und Brot stehen, systematisch geschult werden? Und was 
sind überhaupt die FDM-relevanten Kerninhalte pro Berufszweig? Was ist erwartbar 
und realistisch? Wer bezahlt dies? Wie können seriöse und bestenfalls zertifizierte 
Maßnahmen identifiziert werden? Werden sogenannte Zertifikatskurse, angeboten 
von Hochschulen, eine zusätzliche Einnahmequelle für Hochschulen darstellen? 

Eine weitere Ebene der Herausforderungen betrifft das Verhältnis NFDI zu den 
Initiativen und Entwicklungen in den Bundesländern. Naturgemäß hat die NFDI die 
Fach-Konsortien im Blick und fördert die Communities, die besonders strukturbil- 
dend in ihrem Fach auftreten. Aber wieviel Prozent der (Nachwuchs-)Wissenschaft- 
lerinnen und Wissenschaftler erreicht der durch die NFDI ausgelöste kulturelle 
Wandel? Werden die geförderten NFDI-Fachkonsortien im schlimmsten Fall nur als 
Leuchtturmprojekte wahrgenommen, die außerhalb der jeweiligen Fachdisziplin 
Niemanden sonderlich interessieren werden? Oder ist es wirklich realistisch anzu- 
nehmen, dass z.B. vielleicht zwei bis vier geförderte geisteswissenschaftliche Fach- 
konsortien tatsächlich hunderttausende geisteswissenschaftlich Studierende zu 
dem gewünschten, ja fast geforderten Paradigmenwechsel einladen? 

Hier kommen die Bundesländer ins Spiel, die quasi vor Ort für ihre Hochschu- 
len in ihrem Bundesland aktiv werden und z.T. große Fördersummen investieren, 
damit einzelne Forschende, aber auch Studierende und Forschungsunterstützende 
im Bereich FDM beraten, unterstützt und geschult werden. Es macht weder Sinn 
noch scheint es überhaupt ansatzweise realistisch zu sein, dass Fachkonsortien 
Strahlkraft auf einzelne Hochschulen in der Fläche haben werden und in der Lage 
sind, alle Fakultäten und Fachbereiche einer Hochschule zu inspirieren. Damit 
kommt den Bundesländern eine besondere Verantwortung zu und sie müssen ihre 
Hochschulen überzeugen, FDM als Teil der ureigenen Aufgabe zu verstehen und 
diese bei den nächsten Hochschulabschlüssen (weitestgehend) aus dem Grundetat 
zu finanzieren. Eine undankbare Aufgabe, und während sich „Ruhm und Ehre“ auf 
die leuchtenden NFDI-Fachkonsortien verteilen, müssen sich die Hochschulen und 
Forschungseinrichtungen im Zweifel in der Fläche allein abmühen. Dadurch ent- 
steht auf ganz natürliche Weise das Spannungsfeld zwischen Exzellenz in der fach- 
wissenschaftlichen Spitze und dem mühsamen Locken und Werben in der Breite 
bzw. Fläche. Es wird spannend sein zu sehen, ob und wie sich alle Bundesländer in 
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koordinierter und systematischer Weise in den NFDI-Prozess™ einbringen. In die- 
sem Zusammenhang scheint es auch sehr wichtig zu sein, alle 16 Bundesländer glei- 
chermaßen „ins Boot zu holen“ und auch insbesondere die östlichen Bundesländer 
verstärkt zu motivieren, sich des Themas FDM anzunehmen. Sowohl politisch als 
auch finanziell ist hier zwischen West und Ost bereits eine Schieflage zu beobach- 
ten. Auch die Zusammenarbeit zwischen außeruniversitären Forschungseinrichtun- 
gen und den länderfinanzierten Hochschulen innerhalb der NFDI wird sich weiter 
ausdifferenzieren müssen. 

Eine weitere Herausforderung besteht in dem Verhältnis fachwissenschaftlicher 
FDM-Expertise auf der einen Seite und die Verantwortung für die sogenannten 
Querschnittsaufgaben auf der anderen Seite. Natürlich haben sich die jetzt geförder- 
ten NFDI-Fachkonsortien dazu verpflichtet, Querschnittsaufgaben wahrzunehmen 
und sich mit anderen Konsortien entsprechend in z.B. Arbeitsgruppen und Sektio- 
nen zu vernetzen. Es bleibt abzuwarten, ob hier ein Schub, um nicht zu sagen, Ruck 
durch alle Fachdisziplinen erreicht wird und sich die Fachkonsortien verantwortlich 
fühlen, diesen eher generisch anzulegenden Prozess unter Berücksichtigung aller 
Beteiligten, also auch derjenigen ohne NFDI-Förderprojekt, an verantwortlicher 
Stelle zu koordinieren. Erfahrungsgemäß sind diese Prozesse sehr langwierig, be- 
schwerlich und (leider) wenig karrierefördernd. Es wird spannend sein zu beobach- 
ten, wer sich in welcher Form für welchen Querschnitts-Themenbereich einsetzen 
wird, wie dies im NFDI-Ökosystem angesehen wird und welche Auswirkungen sich 
außerhalb der NFDI ergeben. Immerhin liegt mit der „Leipzig-Berlin-Erklärung zu 
NFDI-Querschnittsthemen der Infrastrukturentwicklung“” ein zwischen den Quer- 
schnittsinitiativen und (potenziellen) Fachkonsortien abgestimmter Fahrplan vor. 

Zusammenfassend kann festgehalten werden, dass das NFDI-Ökosystem sowohl 
horizontal als auch vertikal kein festes Gefüge darstellen kann, sondern im partizi- 
patorischen Aushandlungsprozess, v.a. auch unter Berücksichtigung der nicht an 
erster Stelle Beteiligten, inkludierend, offen, neugierig und sich agil verändernd 
auftreten sollte. Und selbstverständlich muss dieser NFDI-Organismus europäisch 
und international fest verankert sein und in beide Richtungen (nach Deutschland 
hinein und aus Deutschland hinaus) transparent informieren, unterstützen, Über- 
zeugungsarbeit leisten etc. 

Zum Schluss soll zudem noch auf eine Herausforderung der besonderen Art hin- 
gewiesen werden. Natürlich spricht die NFDI mit den im Kielwasser strömenden 
Hype-Worten wie HPC, KI, Algorithmen, „Blech“? etc. besonders den Sprach- und 
Gedankenschatz der männlich Involvierten an und beflügelt offenbar insbesondere 
Männer, die zu einem erstaunlich großen Prozentsatz den NFDI-Konsortien vorste- 


34 An dieser Stelle ist nicht der GWK-Beschluss zur Förderung von NFDI-Fachkonsortien gemeint. 
35 Vgl. Bierwirth et al. 2020. 
36 Originalzitat auf der 2. NFDI/DFK Konferenz im Juli 2020. 
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hen. Selbst in den geisteswissenschaftlichen NFDI-Konsortien (gefördert in der 1. 
Runde bzw. einzureichen in der 2. Runde) ist der Frauenanteil derer, die im Rahmen 
der 2. NFDI/DFG-Konferenz prasentiert haben, verschwindend gering. 

Auch ist die kulturelle Vielfalt in der bisherigen NFDI-Welt nicht besonders aus- 
geprägt, dies betrifft sowohl den kulturellen Hintergrund, unterschiedliche Hoch- 
schultypen oder auch die Altersstruktur der sogenannten Meinungsführerschaft. 
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